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> 具有 较 强 的 可 操作 性 ， 便 于 读者 学 习 和 理解 。 
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Spark 起 源 于 2009 年 ， 是 美国 加 州 大 学 伯克利 分 校 AMP 实验 室 的 一 个 研究 性 项 目 。 
Spark 于 2010 年 开源 ， 是 当今 大 数据 领域 最 活跃 、 最 热门 、 最 高 效 的 大 数据 通用 计算 平台 ， 
是 Apache 软件 基金 会 所 有 开源 项 目 中 三 大 顶级 开源 项 目 之 一 。 

Spark 是 用 Scala 语言 写成 的 一 套 分 布 式 内 存 授 代 计 算 系统 ， 它 的 核心 抽象 概念 是 弹性 
分 布 式 数据 集 (Resilient Distributed Dataset，RDD) ， 在 “One Stack to rule them all” (一 个 
技术 堆栈 容纳 各 种 数据 处 理 技术 ) 理念 的 指引 下 ，Spark 基于 RDD 成 功 地 构建 起 了 大 数据 
处 理 的 一 体 化 解决 方案 ,将 MapReduce Streaming, SQL, Machine Learning, Graph Process- 
ing 等 大 数据 计算 模型 统一 到 一 个 技术 堆栈 中 ， 开 发 者 可 以 使 用 同样 的 API 操作 Spark 中 的 
所 有 功能 。 更 为 重要 的 是 ，Spark 的 Spark SQL, MLLib, GraphX, Spark Streaming 等 四 大 子 
框架 (TE Spark 1. 4 版 本 中 ， 加 入 了 新 的 SparkR 子 框架 ) 之 间 可 以 在 内 存 中 完美 的 无 颖 集成 
并 可 以 互相 操作 彼此 的 数据 ， 这 不 仅 打造 了 Spark 在 当今 大 数据 计算 领域 相 比 其 他 任何 计算 
框架 具备 的 无 可 匹敌 的 优势 ， 更 使 得 Spark 正在 加 速成 为 大 数据 处 理 中 心 首 选 的 和 唯一 的 计 
算 平 台 。 

目前 ，Spark 已 经 发 展 成 为 包含 众多 子 项 目的 大 数据 计算 平台 。Spark 的 整个 生态 系统 
称 为 伯克利 数据 分 析 栈 (BDAS ) 。 其 核心 框架 是 Spark， 同 时 BDAS 涵盖 支持 结构 化 数据 
SQL 查询 与 分 析 的 查询 引擎 Spark SQL， 提 供 具 有 机 器 学 习 功 能 的 系统 MLbase 及 底层 的 分 布 
式 机 器 学 习 库 MLlib、 并 行 图 计算 框架 GraphX、 流 计算 框架 Spark Streaming、 采 样 近似 计算 
查询 引擎 BlinkDB 、 内 存 分 布 式 文件 系统 Tachyon 、 资 源 管理 框架 Mesos 等 子 项 目 。 这 些 子 项 
HE Spark 上 提供 了 更 高 层 、 更 丰富 的 计算 范式 。 

随 着 Spark 社区 的 不 断 成 熟 ， 它 已 被 广泛 应 用 于 阿里 巴巴 、 百 度 、 网 易 、 英 特 尔 等 各 大 
公司 的 生产 环境 中 。 

关于 Spark 及 其 开发 案例 的 中 文 资料 比较 匮乏 ， 相 关 书 籍 也 比较 少 ， 社 区 内 开发 者 们 主 
要 的 学 习 方式 仍然 限于 阅读 有 限 的 官方 文档 、 源 码 、AMPLab 发 表 的 论文 ， 以 及 社区 讨 
论 等 。 

为 了 让 Spark 初学 者 能 快速 进入 开发 阶段 ， 本 书 针 对 Spark 内 核 、Spark SQL 以 及 Spark 
Streaming 等 内 容 ， 提供 了 一 系列 的 开发 案例 ， 基于 这 些 开 发 案例 ， 详细 记录 并 解析 了 这 几 
个 子 框架 开发 过 程 的 各 个 步 又 。 

Spark 的 发 展 日 新 月 异 ， 在 本 书 撰写 时 ，Spark 1. 3 版 本 刚刚 发 布 ， 因 此 ， 本 书 全 部 的 开 
发 案例 都 是 基于 该 版 本 进行 的 。 同 时 ， 鉴 于 Spark 是 用 Scala 语言 编写 的 ， 本 书 的 开发 案例 
也 采用 Scala 语言 作为 开发 语言 。 

ABIES 39, PRA 

第 1 XE. Spark 简介 ， 内 容 包 括 介 绍 Spark 的 基本 概念 、Spark 生态 圈 以 及 RDD 编程 模 
型 等 内 容 ; 

第 2 章 : Spark RDD 实践 案例 与 解析 ， 内 容 包 括 Spark 应 用 程序 的 部 署 、RDD 数据 的 输 
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入 、 处 理 、 输 出 的 基本 案例 与 解析 、RDD API 的 应 用 案例 与 解析 、Spark 应 用 程序 的 构建 ， 
以 及 移动 互联 网 数据 分 析 案 例 与 解析 等 内 容 ; 

第 3 章 : Spark SQL 实践 案例 与 解析 ， 内 容 包 括 Spark SQL 概述 、DataFrame 处 理 的 案例 
与 解析 、Spark SQL 处 理 各 种 数据 源 的 案例 与 解析 ， 以 及 基于 Hive 的 人 力 资源 系统 数据 处 理 
案例 与 解析 等 内 容 ; 

第 4 章 : Spark Streaming 实践 案例 与 解析 3 内 容 包 括 Spark Streaming 概述 、 Spark 
Streaming 基础 概念 、 企 业 信 息 实时 处 理 的 案例 与 解析 ， 以 及 性 能 调 优 等 内 容 ，; 

第 5 Hi: Tachyon 实践 案例 与 解析 ， 内 容 包括 Tachyon 概述 、Tachyon 部 署 的 案例 与 解 
析 、Tachyon 配置 的 案例 与 解析 、 命 令 行 接口 的 案例 与 解析 、 同 步 底层 文件 系统 的 案例 与 解 
析 ， 以 及 基于 Tachyon 运行 Spark 和 Hadoop 的 案例 与 解析 等 内 容 。 

在 全 书 最 后 ， 特 别 介绍 了 Spark 1. 4 版 本 的 新 特性 。 

预备 知识 

熟悉 Linux/UNIX 类 操作 系统 的 基本 命令 操作 以 及 Java 或 Scala 语言 对 理解 本 书 内 容 大 
有 神 益 。 建 议 构建 3 台 及 以 上 服务 器 的 集群 环境 ， 以 更 好 地 实践 并 理解 分 布 式 环境 中 的 
Spark 运行 框架 与 计算 。 

本 书 的 目标 读者 

作为 Spark 入 门 的 开发 案例 ， 本 书 适合 刚 接触 Spark 或 对 Spark 分 布 式 计算 的 开发 不 熟 
悉 的 初学 者 。 对 于 熟悉 函数 式 开发 或 面向 对 象 开 发 ， 并 有 一 定 经 验 的 开发 者 ， 本 书 也 可 以 作 
为 开发 案例 的 参考 书籍 。 

本 书 由 王家 林 ， 徐 香 玉 编著 ， 参 与 编写 的 还 有 : 王家 虎 、 王 家 俊 、 王 燕 军 。 限 于 作者 水 
平 ， 书 中 玻 漏 之 处 在 所 难免 ， 欢 迎 广大 读者 批评 指正 。 
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(eee 什么 是 Spark 


Spark 是 一 个 由 加 州 大 学 伯克利 分 校 (UC Berkeley AMP) 开发 的 一 站 式 通用 大 数据 计算 
框架 ， 经 过 2013 -2014 年 的 高 速 发 展 ，Spark 目前 已 经 成 为 大 数据 计算 领域 最 热门 的 技术 之 
—, Spark 的 核心 技术 弹性 分 布 式 数据 集 (Resilient Distributed Datasets, RDD), ， 提 供 了 比 
Hadoop 更 加 丰富 的 MapReduce 模型 ， 拥 有 HadoopMapReduce 所 具有 的 所 有 优点 ， 但 不 同 于 
HadoopMapReduce 的 是 ，Spark 中 Job 的 中 间 输 出 和 结果 可 以 保存 在 内 存 中 ， 从 而 可 以 基于 
内 存 快 速 的 对 数据 集 进行 多 次 迭代 ， 来 支持 复杂 的 机 带 学 习 、 图 计算 和 准 实 时 流 处 理 等 ， 效 
率 更 高 ， 速 度 更 快 。 


Spark 生态 


Spark 基于 RDD， 提 供 了 一 站 式 多 维度 的 大 数据 计算 模型 ， 可 以 在 同一 个 技术 堆栈 中 快 
速 对 数据 集 进行 批 处 理 、 即 席 查询 、 机 带 学 习 、 图 计算 和 准 实时 流 处 理 等 。 


TA 伯克利 数据 分 析 协 议 栈 


目前 ，Spark 已 经 发 展 成 为 包含 众多 子 项 目的 大 数据 计算 平台 。Spark 的 整个 生态 系统 称 为 
伯克利 数据 分 析 栈 (BDAS) 。 其 核心 框架 是 Spark， 同 时 BDAS 涵盖 支持 结构 化 数据 SQL 查询 
与 分 析 的 查询 引擎 Spark SQL， 提 供 具 有 机 器 学 习 功 能 的 系统 MLbase 及 底层 的 分 布 式 机 器 学 习 
JÆ MLib、 并 行 图 计算 框架 GraphX、 流 计算 框架 Spark. Streaming、 采 样 近 似 计算 查询 引擎 
BlinkDB 、 内 存 分 布 式 文件 系统 Tachyon 、 资 源 管 理 框架 Mesos 等 子 项 目 。 这 些 子 项 目 在 Spark 
上 层 提供 了 更 高 屋 、 更 丰富 的 计算 范式 。BDAS 如 图 1.1 所 示 。 


BlinkDB SparkR 
Spark 


Apache Spark 


HDFS,S3,LocalFS,ClusterFS,NFS,Ceph.... 


Apache Mesos Apache Yarn 


1.1 伯克利 数据 分 析 协 议 栈 
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D Spark 开源 社区 发 展 


图 1.2 显示 了 自从 Spark 将 其 代码 部 署 到 GitHub 之 后 的 提交 数据 ， 其 中 包含 了 当前 提交 > 
个 数 、 分 支 个 数 、 发 布 的 release 版 本 个 数 以 及 当前 贡献 者 的 个 数 。 截 止 2015 年 3 月 份 一 共 

有 10150 次 提交 ，13 个 分 支 ，33 次 发 布 ，469 位 代码 贡献 者 。 这 些 数据 可 以 看 出 Spark 开源 

社区 的 活跃 程度 相当 高 。 


Mirror of Apache Spark 


10,150 commits 13 branches 33 releases GP 469 contributors 


Ẹ branch: mastery spark /+ 


图 1.2 Spark 开源 提交 数据 

图 1. 3 为 截止 到 2015 年 3 月 份 的 Spark 代码 贡献 者 每 个 月 的 增长 曲线 ， 由 该 图 可 以 看 到 
Spark 开源 项 目的 代码 贡献 者 在 近 几 年 增长 很 快 ， 尤 其 是 最 近 两 年 ， 越 来 越 多 的 人 参与 在 
Spark 开源 项 目 中 。 
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图 1.3 Spark 代码 贡献 者 的 增长 曲线 


| RDD 编程 模型 


Spark 的 理论 基础 是 RDD，RDD 让 Spark 实现 了 “one stack to rule them all”( 一 个 技术 
堆栈 统一 数据 处 理 ) 目标 。 只 有 深刻 理解 RDD 这 一 抽象 概念 ， 才 能 进一步 理解 Spark 的 有 
向 无 环 图 (Directed Acydic Graph, DAG) 调度 及 RDD 间 的 Lineage (血统 ) 关系 ， 下 面 开 
始 解析 RDD 抽象 概念 以 及 DAG WE, Lineage 机 制 等 内 容 。 


| |) RDD 抽象 概念 


RDD 是 弹性 分 布 式 数据 集 的 简称 ， 其 本 身 是 一 个 抽象 类 ， 其 内 部 实现 包括 以 下 五 个 部 
分 ， 其 中 前 三 个 是 必 备 的 : 


大 数据 实例 开发 教程 


1) getPartitions 方法 : 分 区 列表 (数据 块 列表 )。 

2) compute 方法 : 计算 每 个 分 片 的 函数 。 

3) getDependencies 方法 : 对 父 RDD 的 依赖 列表 。 

4) partitioner; Key - Value ( 键 - 值 ) RDD fjr IX ss, 

5) getPreferredLocations 方法 : 每 个 数据 分 片 的 预定 义 地 址 列表 (如 HDFS 上 的 数据 块 
的 地 址 ) 。 

其 中 ， 前 三 个 用 于 描述 RDD 间 的 Lineage ( 即 血统 关系 ， 此 概念 在 后 面 有 专门 解释 ) 信 
息 ， 后 两 个 可 用 于 优化 执行 。 

RDD 是 Spark 中 最 重要 的 一 个 抽象 概念 ， 为 了 更 容易 理解 RDD 这 一 抽象 概念 ， 这 里 给 
出 比较 通俗 的 描述 。 

1. 首先 RDD 的 定义 为 RDD [T] ， 可 以 将 RDD 理解 成 了 实例 的 一 个 集合 ， 即 RDD 中 的 
每 条 记录 都 是 一 个 实例 ， 比 如 为 String Ht, RDD 就 是 一 组 String 字符 串 的 集合 。 

2. 对 应 的 分 区 就 是 将 这 一 组 工 实例 的 集合 拆 分 成 多 个 子 集合 ， 这 里 子 集合 也 就 是 我 们 
的 数据 分 区 。 数 据 以 Block， 即 块 方式 存储 在 HDFS E, MJE, Æ Spark 中 ， 子 集合 实际 
上 对 应 着 分 区 的 概念 。 分 区 就 是 将 对 应 大 数据 量 的 T 实 例 集 合 切 (split) 成 多 个 小 数据 量 的 
T 实 例子 集合 。 这 个 集合 ， 对 应 的 内 部 代码 其 实 就 是 Iterator [T]。 

3. 用 于 构建 该 RDD 的 父 RDD 即 是 该 RDD 的 父 依赖 ， 由 于 可 以 有 多 个 父 依 赖 的 RDD， 
因此 有 对 应 父 RDD 的 一 个 依赖 列表 。 对 于 RDD 间 的 依赖 关系 ， 首 先 需 要 理解 一 个 概念 ， 就 
是 依赖 这 个 概念 是 通过 RDD 的 分 区 间 的 依赖 来 体现 的 ， 通 过 这 个 依赖 列表 ， 以 及 该 RDD 的 
getPartitions 方法 ， 可 以 知道 RDD 的 各 个 分 区 是 如 何 依赖 一 组 父 RDD 的 分 区 的 ， 比 如 最 简单 
的 映射 (map) 转换 ， 转 换 后 的 RDD (MapPartitionsRDD) 各 个 分 区 ， 依 赖 父 RDD 的 各 个 分 
区 (分 区 为 一 一 对 应 的 依赖 关系 )。 也 就 是 转换 后 RDD 各 个 分 区 的 数据 Block ， 是 来 自 父 
RDD 的 对 应 分 区 的 数据 Block。 

4. 计算 每 个 分 片 的 函数 compute, E T HEIE (lazy) 计算 的 特性 ， 比 如 : MapPartition- 
sRDD, ， 对 应 的 compute 函数 记录 了 该 RDD 对 父 依 赖 的 各 个 分 区 数据 的 操作 ， 也 就 是 记录 了 对 
MapPartitionsRDD 各 个 分 区 的 输入 源 数据 进行 的 计算 。 当 其 他 RDD 从 MapPartitionsRDD 获取 数 
据 或 要 存储 到 外 部 存储 系统 时 (有 Action 触发 ) ， 就 会 执行 这 个 计算 每 个 分 片 的 函数 compute 
因为 这 里 只 是 记录 操作 ， 所 以 在 窄 依赖 时 可 以 采用 pipeline 方式 ， 流 水 线 式 地 进行 计算 。 

这 里 再 补充 介绍 两 点 : 

1) compute 困 数 是 针对 分 区 的 数据 ， 所 以 计算 的 并 行 数 也 就 是 分 区 的 个 数 。 

2) compute 困 数 是 针对 分 区 的 数据 ， 可 以 认为 计算 的 粒度 是 分 区 粒度 ， 因 此 可 以 认为 
RDD 的 计算 ， 某 种 程度 上 是 粗 粒 度 的 。 也 就 是 如 果 使 用 RDD 的 compute 函数 ， 则 大 部 分 
APL 的 计算 都 是 针对 分 区 的 ， 而 不 是 针对 RDD 的 T 元 素 。 如 果 需 要 对 RDD 的 了 元素 进 行 更 
细 粒 度 的 处 理 ， 可 以 使 用 RDD 的 mapPartitions 操作 ， 直 接 处 理 分 区 的 数据 Iterator[T] 。 

5. Key - Value RDD， 其 实 就 是 T 类 型 为 Key - Value 对 的 类 型 。 属 于 RDD 元 素 是 键 值 对 
这 一 特定 类 型 的 RDD。RDD 为 一 些 特定 类 型 的 T 提供 了 额外 的 功能 ， 这 部 分 内 容 可 以 参考 
本 书 2.3 节 RDD API 的 应 用 案例 与 解析 部 分 。 

RDD 抽象 类 的 这 五 个 方法 对 应 的 源码 如 下 所 示 : 


/ ck 
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* : :DeveloperApi: : 
* Implemented by subclasses to compute a given partition. 
*/ 

€ DeveloperApi 

def compute( split; Partition , context ; TaskContext) : Iterator[ T ] 


VALE: 


* Implemented by subclasses to return the set of partitions in this RDD. This method will only 
* be called once,so it is safe to implement a time - consuming computation in it. 
*/ 

protected def getPartitions ; Array [ Partition | 


/okk 


* Implemented by subclasses to return how this RDD depends on parent RDDs. This method will only 
* be called once,so it is safe to implement a time - consuming computation in it. 
*/ 

protected def getDependencies :Seq[ Dependency[ _] ] = deps 


/ ok 


* Optionally overridden by subclasses to specify placement preferences. 
*/ 
protected def getPreferredLocations( split; Partition) ;Seq[ String] = Nil 


/ ** Optionally overridden by subclasses to specify how they are partitioned. * / 
@ transient val partitioner ; Option[ Partitioner | = None 


CS RDD 的 操作 


RDD 的 操作 分 为 两 类 : Transformation 与 Action, HP Transformations 是 惰性 执行 ( lazy 
execution) 的 ， 惰 性 执行 表示 真正 需要 时 才 会 执行 ， 这 里 是 在 需要 具体 的 Action 去 触发 才 会 
开始 执行 ， 每 个 Action 的 触发 都 会 提交 一 个 Jobs 

一 个 典型 的 操作 流程 如 图 1. 4 所 示 。 
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图 1.4 RDD 操作 流程 示意 图 
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首先 通过 textFile 操作 从 外 部 存储 系统 HDFS 中 读 取 文件 ， 构 建 出 两 个 RDD 实例 A 和 
C; 然后 A 做 flatMap 和 Map 转换 操作 ， 对 C 做 Map 型 操作 和 reduceByKey 转换 操作 ; 最 后 
对 得 到 的 B 和 下 两 个 做 联合 操作 ， 并 通过 saveAsSequenceFile 操作 将 最 终 的 下 实例 持久 化 到 
外 部 存储 系统 HDFS E, Transformation E Action 两 种 操作 的 区 分 可 以 从 它们 的 返回 值 查看 ， 
Transformation 是 将 一 个 RDD 转换 为 新 的 RDD ， 而 Action 操作 会 将 结果 反馈 到 Driver Program 
或 存储 到 外 部 存储 系统 上 。 


RDD 的 依赖 关系 
RDD 的 依赖 分 为 罕 依 赖 与 宽 依赖 ， 如 图 1.5 所 示 〈 左 侧 为 窄 依 赖 ， 右 侧 为 宽 依 赖 ) : 
AH: 宽 依赖 : 
map.filter groupByKey 
输入 为 协同 分 区 的 
a join 输入 为 非 协同 分 区 的 
join 


图 1.5 RDD 的 罕 依 赖 与 宽 依赖 


其 中 ， 每 一 个 方 框 表 示 一 个 RDD ， 其 内 的 阴影 矩形 表示 RDD 的 分 区 。 

对 于 罕 依 赖 ， 可 以 进行 pipeline 操作 ， 即 允许 在 单个 集群 节点 上 流水 线 式 地 执行 ， 这 个 
节点 可 以 计算 所 有 父 级 分 区 。 

而 在 节点 失败 (如 节点 硬件 故障 或 强制 kill 导致 的 失败 ) 后 的 恢复 效率 上 ， 在 罕 依 赖 
中 ， 只 有 在 失败 节点 上 丢失 的 父 级 分 区 需要 重新 计算 ， 并且 这 些 丢 失 的 父 级 分 区 可 以 并 行 地 
在 不 同 节点 上 重新 计算 。 与 此 相反 ， 在 宽 依赖 的 继承 关系 中 ， 单 个 失败 的 节点 可 能 导致 一 个 
RDD 的 所 有 先祖 RDD 中 的 一 些 分 区 丢失 ， 导 致 计算 的 重新 执行 。 

对 RDD 依赖 可 以 从 以 下 两 个 方面 理解 : 

l. 依赖 本 身 是 描述 两 个 RDD 之 间 的 关系 。 但 一 个 RDD 可 以 与 多 个 RDD 有 依赖 关系 。 

2， 宽 依赖 和 窄 依赖 的 判断 : 在 RDD 的 各 个 分 区 中 对 父 RDD 的 分 区 的 依赖 关系 。 

1) EK: 子 RDD 的 每 个 分 区 依赖 于 常数 个 父 分 区 ( 即 与 数据 规模 无 关 ) 。 

2) SERB: 子 RDD 的 每 个 分 区 依赖 于 所 有 父 RDD 的 分 区 。 


一 个 典型 的 DAG 示意 图 ) 


Spark 将 数据 在 分 布 式 环境 下 分 区 ， 然 后 将 作业 转化 为 DAG， 并 分 阶段 进行 DAG 的 调 
度 和 任务 的 分 布 式 并 行 处 理 。 图 1. 6 是 一 个 典型 的 DAG 示意 图 。 

如 图 1.6 所 示 ， 描述 了 DAG 调度 时 会 根据 Shuffle 将 Job 划分 为 Stage， 比 如 A 到 B 之 
H, UR F 到 G 之 间 的 数据 需要 经 过 Shuffle 过 程 ， 因 此 A 和 下 是 Stage 的 划分 点 ， 以 及 
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图 1.6 DAG 典型 示意 图 


RDD 的 Lineage 关系 。 其 中 ， 实 线 圆 角 方 框 标识 的 是 RDD 方 框 中 的 矩形 块 为 分 区 。 

这 里 通过 G 和 下 这 两 个 RDD 间 的 依赖 关系 ， 描 述 了 如 何 执行 Sage。 图 1.6 中 ，RDD G 
对 下 的 依赖 为 宽 依 赖 ， 即 对 应 有 Shuffle 过 程 ， 因 此 对 于 G 这 个 RDD 就 会 新 建 一 个 Stage, 
这 里 为 Stage 3。 

RDD 的 Lineage 关系 ， 可 以 从 族谱 角度 去 理解 。 即 描述 了 RDD 是 从 哪 来 的 ， 以 及 怎么 
来 的 信息 。 

RDD G 上 一 个 Action 的 执行 将 会 以 宽 依赖 作为 基于 为 分 区 来 构建 各 个 Stage， 对 各 Stage 
内 部 的 罕 依 赖 则 前 后 连接 构成 流水 线 。 在 本 例 中 ，Stage 1 的 输出 已 经 存在 RAM 中 ， 所 以 直 
接 执 行 Stage 2 ， 然 后 Stage 3。 

Spark 通过 Lineage 机 制 实现 高 容错 ， 基 于 DAG 图 ， Lineage 是 轻 量 级 而 高 效 的 ， 操 作 之 
间 相 互 具备 Lineage 的 关系 ， 每 个 操作 只 关心 其 父 操作 ， 各 个 分 片 的 数据 之 间 互 不 影响 ， 出 
现 错误 的 时 候 上 只 要 恢复 单个 分 片 或 分 区 即 可 。 

DAG 的 Lineage 机 制 可 以 从 两 个 方面 进行 理解 : 

1) RDD 之 间 的 数据 流 图 ， 即 RDD 的 各 个 分 区 的 数据 是 从 哪 来 的 。 

2) 基于 数据 流 图 之 上 的 操作 算 子 流 图 ， 即 这 些 数据 传递 过 来 的 时 候 经 过 了 哪些 算 子 的 
操作 。 

可 以 从 RDD 的 抽象 概念 来 解析 Lineage 的 这 两 个 方面 的 特性 : 

1) RDD 的 分 区 列表 (数据 块 列表 ) 和 对 父 RDD 的 依赖 列表 : 对 应 RDD 类 的 getParti- 
tions 和 getDependencies， 这 两 个 方法 记录 了 该 RDD 的 数据 来 源 ， 以 及 来 源 数据 如 何 获 取 
(对 应 窄 依赖 和 宽 依 赖 ) 。 

其 中 ，RDD 各 个 分 区 的 数据 来 源 可 以 从 外 部 存储 系统 或 Scala 数据 集 获取 ， 也 可 以 从 其 
他 父 RDD 获取 。 

2) 计算 每 个 分 片 的 函数 .对 应 RDD 类 的 compute 方法 ， 该 方法 记录 了 该 RDD 对 它 各 
个 分 区 的 数据 来 源 进 行 的 计算 。 
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Spark 应 用 程序 部 署 


图 2.1 描述 了 Spark 应 用 程序 在 集群 上 的 部 署 架 构 。 li 
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到 2.1 Spark 应 用 程序 的 部 署 架 构图 


在 图 2. 1 中 ， 应 用 程序 在 集群 上 的 部 署 架构 包含 以 下 内 容 : 

1. Spark 应 用 程序 ， 对 应 图 中 的 Driver Program, H F SparkContext 包含 在 Driver Program 
中 ， 因 此 通常 也 用 SparkContext 表示 Spark 应 用 程序 。 

2. 集群 管理 器 ， 对 应 图 中 的 Cluster Manager， 负 责 封 装 不 同 的 集群 管理 器 ， 包 括 Spark 
Standalone 427 Hit, YARN EPEMA; Driver Program 通过 Cluster Manager 为 其 分 配 
资源 ， 然 后 将 任务 发 送 到 多 个 Worker Node 上 执行 。 

3. 节点 集群 中 多 个 Worker Node， 这 是 应 用 程序 运行 时 真正 执行 应 用 代码 的 地 方 。 这 是 
分 布 式 环境 ， 应 用 程序 在 运行 时 的 Task 是 在 Worker Node 上 的 Executor 中 执行 。 

部 署 的 应 用 程序 在 逻辑 上 由 Driver Program 和 运行 在 多 个 Worker Node 上 的 Executor 组 成 。 

需要 注意 的 是 Spark Driver 所 在 的 计算 机 需要 和 Spark 集群 位 于 同一 个 网 络 环境 中 ， 因 
为 Driver 中 的 SparkContext 实例 要 发 送 任务 给 不 同 Worker Node 的 Executor 并 接受 Executor 的 
一 些 执行 结果 信息 ， 一 般 而 言 ， 在 企业 实际 的 生产 环境 中 Driver 所 在 计算 机 的 性 能 配置 往往 
都 是 比较 不 错 的 ， 尤 其 是 其 CPU 的 处 理 能 力 往 往 都 很 强悍 。 


ac. Spark 应 用 的 基本 概念 ) 


Spark 应 用 程序 部 署 需要 了 解 的 概念 参见 表 2. 1, 
表 2.1 Spark 应 用 程序 基本 概念 
LEE: & X 


Spark 的 基本 计算 单元 ， 是 Spark 的 一 个 最 核心 的 抽象 概念 ， 可 以 通过 一 系列 算 子 进行 操作 ， 包 
括 Transformation 和 Action 两 种 算 子 操作 


即 Spark 应 用 程序 ， 是 指 创建 了 SparkContext 实例 对 象 的 Spark 用 户 程 序 ， 包 含 了 一 个 Driver 
Application Program 和 集群 中 多 个 Worker Node 上 的 Executor， 其 中 ， 每 个 Worker Node 为 每 个 应 用 仅仅 提供 
个 Executor 


RDD 
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B 


概 


& 


a X 
是 指 运行 Application 的 main 函数 并 且 新 建 SparkContext 实例 的 程序 。 通 常用 SparkContext 代表 


Driver Program 


Driver Program 


是 Worker Node 为 Application 启动 的 一 个 工作 进程 ， 在 进程 中 负责 任务 (Task) 的 运行 ， 并 且 
Executor 负责 将 数据 存放 在 内 存 或 磁盘 上 ， 必 须 注意 的 是 ， 每 个 应 用 在 一 个 Worker Node 上 只 会 有 一 个 Ex- 
ecutor， 在 Executor 内 部 通过 多 线程 的 方式 并 发 处 理应 用 的 任务 


和 Spark 的 Action 相对 应 ， 每 一 个 Action 例如 count, savaAsTextFile 等 都 会 对 应 一 个 Job 实例 ， 


n" 该 Job 实例 包含 多 任务 的 并 行 计算 
一 个 Job 会 被 拆 分 成 多 组 任务 (TaskSet) ， 每 一 组 任务 被 称 为 Stage， 任 务 和 MapReduce 的 Map 

和 Reduce 任务 很 像 

Stage 划分 Stage 的 依据 在 于 : Stage 开始 一 般 是 由 于 读 取 外 部 数据 或 者 Shuffle 数据 ， 一 个 Stage 的 结 
束 一 般 是 由 于 发 生 Shuffle (例如 reduceByKey 操作 ) 或 者 是 在 整个 Job 结束 时 。 例 如 要 把 数据 放 
到 HDFS 等 存储 系统 上 

Task 被 Driver Program 送 到 Executor 上 的 工作 单元 ， 通常 情况 下 一 个 Task 会 处 理 一 个 Split ( 也 就 是 

: 一 个 分 区 ) 的 数据 ， 每 个 Split 一 般 就 是 一 个 Block 块 的 大 小 
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部 署 Spark 应 用 程序 的 两 种 方式 分 别 为 : 交互 式 的 方式 和 提交 应 用 的 方式 。 

在 不 同 的 应 用 场景 下 ， 可 以 选择 不 同 的 部 署 方式 。 一 般 来 说 ， 在 开发 调试 的 场景 下 ， 往 
往 选 择 交 互 式 方式 来 部 署 应 用 ; 而 在 需要 癌 集 群 提交 应 用 的 场景 时 ， 就 应 该 选择 提交 应 用 方 
式 了 。 

Spark 为 这 两 种 部 署 方式 提供 了 对 应 的 工具 交互 式 工 具 spark - shell 和 应 用 程序 部 
A T.H. spark - submit。 其 中 ，spark - shell 是 一 个 应 用 程序 ， 因 为 spark - shell 在 启动 的 时 
候 创 建 了 SparkContext 对 象 ， 其 名 称 为 se。 这 两 种 部 署 方式 基本 上 可 以 运行 在 各 种 集群 部 
署 上 。 

使 用 这 两 种 方式 部 署 应 用 程序 时 ， 需 要 根据 不 同 需求 设置 不 同 的 使 用 方法 及 其 命令 选项 
参数 ， 下 面 分 别 描述 两 种 方式 下 的 命令 使 用 方法 以 及 命令 选项 设置 。 

一 、 交 互 方式 部 署 Spark 应 用 程序 

在 单机 模式 下 使 用 Spark Shell 交互 工具 部 署 Spark 应 用 程序 ， 是 初学 者 开始 代码 实践 的 
最 简单 的 、 最 快捷 的 方法 。 在 集群 模式 下 ， 也 可 以 通过 Spark Shell 交互 工具 让 开发 者 更 方便 
地 调试 代码 。 

在 Spark 集群 部 署 主 目录 下 ， 输 入 : 

. /bin/spark -shell ~— help 


可 得 : 


"Usage:. \bin\spark - shell. cmd [ options |" 
Options : 

—- master MASTER. URL Spark ;// host ; port , mesos ;// host ; port , yarn , or local. 

—- deploy - mode DEPLOY MODE Whether to launch the driver program locally ( "client" ) or one of 
the worker machines inside the cluster ("cluster") (Default: client). 


—— class CLASS NAME Your applicatiod s main class (for Java / Scala apps). 
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—- name NAME A name of your application. 

—— jars JARS Comma - separated list of local jars to include on the driver and ex- 
ecutorclasspaths. 

—- packages Comma - separated list of maven coordinates of jars to includeon the 


driver and executorclasspaths. Will search the localmaven repo , then maven central and any additional re- 
moterepositories given by —— repositories. The format for thecoordinates should be groupld : artifactId ; ver- 
sion. 

—— repositories Comma - separated list of additional remote repositories tosearch for 


the maven coordinates given with —— packages. 


—- py - files PY FILES Comma - separated list of . zip,. egg,or . py files to place 
on the PYTHONPATH for Python apps. 

—-- files FILES Comma - separated list of files to be placed in the workingdirectory of 
each executor. 

—— conf PROP = VALUE ArbitrarySpark configuration property. 

—- properties — file FILE Path to a file from which to load extra properties. If notspecified , this 
will look for conf/Spark — defaults. conf. 

—— driver - memory MEM Memory for driver (e. g. 1000M,2G) (Default:512M). 

—— driver - java — options Extra Java options to pass to the driver. 

driver — library — path Extra library path entries to pass to the driver. 
—— driver - class — path Extra class path entries to pass to the driver. Note thatjars added 


with —— jars are automatically included in theclasspath. 


—— executor - memory MEM Memory per executor (e. g. 1000M,2G) (Default; 1G). 
—- proxy - user NAME User to impersonate when submitting the application. 

-- help, -h Show this help message and exit 

—- verbose, — v Print additional debug output 

—— version, Print the version of currentSpark 


Spark standalone with cluster deploy mode only: 


—- driver - cores NUM Cores for driver ( Default;1). 

—- supervise If given , restarts the driver on failure. 

—— kill SUBMISSION ID If given, kills the driver specified. 

—— status SUBMISSION ID If given , requests the status of the driver specified. 


Spark standalone and Mesos only: 


— — total — executor ~ coresNUM Total cores for all executors. 


YARN - only: 
—- driver - cores NUM Number of cores used by the driver,only in cluster mode (Default :1 ). 
—-— executor — cores NUM Number of cores per executor ( Default ;1). 
-- queue QUEUE NAME The YARN queue to submit to ( Default; " default" ). 
—-— num - executors NUM Number of executors to launch ( Default;2). 
—- archives ARCHIVES Comma separated list of archives to be extracted into theworking di- 


rectory of each executor. 


如 果 查 看 交互 式 工 具 spark - shell 的 代码 的 话 ， 可 以 看 到 其 命令 选项 的 帮助 信息 是 通过 
调用 spark - submit —— help 来 获取 的 ， 因 此 其 参数 和 spark - submit 是 一 样 的 。 

二 、 提交 应 用 方式 部 署 Spark 应 用 程序 

采用 提交 应 用 的 方式 部 署 Spark 应 用 程序 时 ， 应 用 程序 使 用 提交 脚本 进行 部 署 : $ 
Spark HOME/bin/spark — submit, 提交 部 署 时 3 应 根据 具体 的 集群 模式 配置 相应 的 选项 参 
数 。 可 通过 在 Spark 集群 部 署 的 主 目 录 下 ， 输 入 以 下 命令 查询 相应 的 配置 参数 : 


e 
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. / bin/spark - submit —— help 


应 用 程序 部 署 工 具 spark - submit 的 用 法 如 下 : 


Usage:Spark - submit [ options] «app jar | python file > [ app arguments ] 
Usage : Spark — submit —— kill [ submission ID] —— master [ Spark ;//... ] 
Usage : Spark — submit -- status [ submission ID] —— master [ Spark://... | 


Options : 
—— master MASTER, URL Spark ;// host : port , mesos ://host : port , yarn, or local. 
—— deploy - mode DEPLOY MODE Whether to launch the driver program locally ( "client" ) or one of 


the worker machines inside the cluster ("cluster") (Default: client). 


—- class CLASS NAME Your application s main class (for Java / Scala apps). 

—- name NAME A name of your application. 

—- jars JARS Comma — separated list of local jars to include on the driver and ex- 
ecutorclasspaths. 

—- packages Comma - separated list of maven coordinates of jars to includeon the 


driver and executorclasspaths. Will search the localmaven repo, then maven central and any additional re- 
moterepositories given by —— repositories. The format for thecoordinates should be groupld : artifactld :ver- 
sion. 

—— repositories Comma — separated list of additional remote repositories tosearch for 


the maven coordinates given with —— packages. 


—- py - files PY FILES Comma - separated list of . zip,. egg,or . py files to place 
on the PYTHONPATH for Python apps. 

—-- files FILES Comma - separated list of files to be placed in the workingdirectory of 
each executor. 

—— conf PROP = VALUE ArbitrarySpark configuration property. 

—— properties — file FILE Path to a file from which to load extra properties. If notspecified , this 
will look for conf/Spark - defaults. conf. 

—— driver - memory MEM Memory for driver (e. g. 1000M,2G) (Default:512M). 

—— driver - java — options Extra Java options to pass to the driver. 

driver — library — path Extra library path entries to pass to the driver. 
—— driver - class — path Extra class path entries to pass to the driver. Note thatjars added 


with —— jars are automatically included in theclasspath. 


—— executor - memory MEM Memory per executor (e. g. 1000M,2G) (Default;1G). 
—- proxy - user NAME User to impersonate when submitting the application. 

-- help, -h Show this help message and exit 

—- verbose, — v Print additional debug output 

—- version, Print the version of currentSpark 


Spark standalone with cluster deploy mode only; 


—- driver - cores NUM Cores for driver ( Default;1). 

—- supervise If given, restarts the driver on failure. 

—— kill SUBMISSION ID If given, kills the driver specified. 

—- status SUBMISSION ID If given , requests the status of the driver specified. 


Spark standalone and Mesos only: 
— — total — executor ~ coresNUM Total cores for all executors. 
YARN - only: 
—— driver - cores NUM Number of cores used by the driver, only in cluster mode ( Default:;1) 
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—— executor — cores NUM Number of cores per executor ( Default; 1). 
—- queue QUEUE NAME The YARN queue to submit to ( Default; " default" ). 
—— num - executors NUM Number of executors to launch ( Default ;2). 
—- archives ARCHIVES Comma separated list of archives to be extracted into theworking di- 
rectory of each executor. > 


命令 行 选项 可 以 在 提交 时 动态 修改 配置 属性 ， 如 果 配 置 属性 是 常用 的 话 ， 可 以 放置 在 
conf/spark — defaults. conf 文件 下 ， 当 属性 对 应 JVM 配置 时 ， 即 各 种 JAVA 的 OPTS 等 ， 可 以 
在 conf/spark -env. sh 脚本 中 添加 到 对 应 环境 变量 

比如 ,命令 行 选项 中 的 比较 常用 的 -- jars 选项 ， 是 逗号 分 隔 的 本 地 jar USE, SHEA 
动 将 这 些 jar 包 发 布 并 放置 到 执行 环境 的 CLASS PATH 下 。 可 以 在 提交 时 动态 指定 该 选项 ， 
也 可 以 在 conf/spark - defaults. conf 中 设置 相关 的 CLASS PATH 信息 ， 避 免 每 次 提交 时 都 要 动 
态 指定 ， 而 且 可 以 避 -- jars 选项 带 来 的 网 络 L/O 等 开销 。 可 以 查看 官方 网 站 上 的 配置 页 ， 
部 分 相关 的 配置 参见 表 2. 2。 


表 2.2 CLASS PATH 相关 配置 项 


配置 属性 ae X 


Driver 额外 的 CLASS PATH 设置 。 比 如 ， 在 部 署 模式 ( —- deploy - mode) 为 cluster 
spark. driver. extraClassPath 时 ， 可 以 将 比较 常用 的 驱动 类 jar 包 等 部 署 到 集群 各 个 节点 上 ， 然 后 将 部 署 路 径 设置 
到 该 配置 属性 中 ,来 避免 -- jars 选项 的 使 


spark. driver. extraJavaOptions Driver 额外 的 JAVA_OPTS 设置 
spark. driver. extraLibraryPath Driver 额外 的 第 三 方 库 路 径 设置 


"wm Executor 额外 的 CLASS PATH 设置 。 比 如 ， 可 以 将 比较 常用 的 驱动 类 jar 包 等 部 署 到 
”| 集群 各 个 节点 上 ， 然 后 将 部 署 路 径 设置 到 该 配置 属性 中 ， 来 避免 -jars 选项 的 使 用 


spark. executor. extraJavaOptions Executor 额外 的 JAVA_OPTS 设置 


spark. executor. extraLibraryPath Executor 额外 的 第 三 方 库 路 径 设 置 


应 用 提交 案例 : 


$ Spark HOME/bin/spark - submit - class test. HelloSparkMaster — — master spark ://192. 168. 70. 214: 
7077 /toPath/testprojectide 2. 10 — 1. 0. jar 


其 中 : 

1) test. HelloSparkMaster 为 要 运行 的 应 用 程序 类 的 名 称 ， 必 须 是 全 路 径 的 。 运 行 Spark 
提供 的 example 示例 代码 时 ， 可 以 直接 使 用 类 名 ， 这 是 因为 在 spark - shell2. sh 脚本 文件 中 已 
经 自动 添加 了 example 示例 类 的 全 路 径 前 级 ”org. apache. Spark. examples. ”。 

2) spark://192. 168. 70. 214:7077: MasterURL， 如 果 是 提交 到 Spark Standalone 集群 的 话 ， 
该 地 址 信息 必须 和 集群 Web Interface 界面 显示 的 MasterURL 一 样 。 如 图 2. 2 所 示 ， 该 Master 
会 用 于 akka (一 个 用 Scala 编写 的 库 ) VEN Actor 的 地 址 ， 而 该 地 址 与 实际 使 用 P 值 的 
Master 构成 的 地 址 不 同 ， 这 会 导致 akka 通信 失败 报错 ， 因 此 提交 时 必须 保证 MasterURL 的 
正确 性 。 

Spark 是 M/S 结构 的 分 布 式 计算 框架 ，M 为 Master，S 为 Save， 其 中 Master 对 应 于 
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Spark Standalone 集群 的 调度 节点 。Master URL 对 应 连接 到 Master 时 使 用 的 URL。 图 2.2 为 
Web Interface (http: //wxx214:8080/) 界面 ， 在 该 界面 查看 正确 的 MasterURL, 


Spak 130 Bpark Master at spark://192.168.70.214:7077 


URL: sparic//192.168.70 2147077 

REST URL: spark-//192.168.70.214:6066 (cluster mode) 
Workers: 3 

Cores: 12 Total, 0 Used 

Memory: 12.0 GB Total, 0.0 6 Used 

Applications: O Running, 1 Completed 

Drivers: 0 Running, 0 Completed 

Status: ALIVE 


Workers 


图 2.2 URL 查看 界面 


MasterURL 中 的 host 信息 不 支持 IP 与 hostname 互 换 ， 即 当 界 面 显示 如 图 2.2 时 ， 如 果 
使 用 hostname 对 应 的 MasterURL ， 比 如 以 Spark: //wxx214: 7077 作为 MasterURL 进行 提交 的 
话 ， 可 能 会 报 如 下 连接 失败 的 错误 : 


15/04/03 10:13:04 INFO ui. SparkUI: Started SparkUI at http://wxx215: 4040 

15/04/03 10:13:04 INFO client. AppClient $ ClientActor: Connecting to master akka. tcp://sparkMaster 
(9 wxx214: 7077/ user/ Master. . . 

15/04/03 10:13:24 INFO client. AppClient $ ClientActor: Connecting to master akka. tcp://sparkMaster 
(9 wxx214:7077/ user/ Master. . . 

15/04/03 10:13:44 INFO client. AppClient $ ClientActor: Connecting to master akka. tcp://sparkMaster 
(9 wxx214:7077/user/ Master. . . 

15/04/03 10:14:04 ERROR cluster. SparkDeploySchedulerBackend : Application has been killed. Rea- 
son : All masters are unresponsive! Giving up. 

15/04/03 10:14:04 WARN cluster. SparkDeploySchedulerBackend : Application ID is not initialized yet. 
15/04/03 10:14:04 ERROR scheduler. TaskSchedulerImpl : Exiting due to error from cluster scheduler: 


All masters are unresponsive! Giving up. 


3) /toPath/testprojectide 2. 10 — 1. 0. jar: 应 用 程序 类 所 在 的 jar 包 路 径 。 


UU RDD 数据 的 输入 、 处 理 、 输 出 的 基本 案例 与 解析 


AS“ 25th RDD 数据 输入 、 处 理 以 及 输出 的 一 个 完整 和 案例， 案例 中 包含 了 以 下 内 容 : 

1) 构建 RDD: JOINED Re Mn. 

2) 对 构建 好 的 RDD 进行 处 理 : 包括 WordCount (单词 统计 ) Sort (HEF), TopN (前 
N 个 ) 等 常见 应 用 处 理 。 

3) 保存 RDD: 存储 经 过 各 种 处 理 的 RDD 数据 。 

补充 说 明 : 当 Spark 以 Hadoop 的 HDFS 作为 存储 系统 时 ， 文 件 的 读 写 依赖 于 HDFS 提供 
的 接口 ， 文 件 的 读 取 对 应 具体 的 InputFormat 子 类 ,文件 的 输出 对 应 具体 的 OutputFormat F 
类 。 即 ， 存储 系统 的 操作 由 HDFS 提供 支持 ，Spark 本 身 只 是 计算 框架 。 因 此 ， 当 我 们 对 输 
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入 输出 有 特殊 要 求 时 ， 在 构建 HadoopRDD 的 时 候 ， 应 使 用 对 应 的 InputFormat 子 类 和 Output- 
Format 子 类 来 实现 。 


集群 环境 的 搭建 )G9 


对 初学 者 而 言 ， 只 需要 掌握 以 下 几 个 启动 、 停 止 的 命令 ， 就 可 以 相应 地 启动 和 停止 对 应 
的 集群 了 。 在 接 下 来 介绍 的 集群 准备 时 ， 只 启动 HDFS 和 Spark 两 个 服务 。 
一 、 集 群 规划 
在 四 台 机 器 上 构建 集群 ， 具 体 环节 搭建 的 规划 如 表 2. 3 所 示 。 
表 2.3 集群 部 署 环境 说 明 
IP 地 址 Master/Slave Jt — = 部 署 版 本 


Hadoop: NameNode, Re- 
192. 168. 70. 214 Master sourceManager 
Spark; Master 

Hadoop - 2.6. 0, Spark - 
1. 3. 0 - bin - hadoop2. 4 


192. 168. 70. 215 
Hadoop: DataNode, Node- 


192. 168. 70. 223 Slave Manager 
Spark: Worker 


192. 168. 70. 225 


二 、 版 本 说 明 

1. 支持 环境 采用 Hadoop -2. 6.0 -64: 64 位 操作 系统 上 重新 编译 的 Hadoop 2. 6. 0 版 本 
的 部 署 包 。 

2. Spark -1.3.0 - bin -hadoop2.4: 基于 Hadoop 2.4 版 本 重新 编译 的 spark 1. 3.0 版 本 
的 部 署 包 。 

由 于 Hadoop 的 客户 端 兼 容 二 进 制 ， 因 此 基于 Hadoop 2. 4 版 本 编译 的 Spark 可 以 访问 
Hadoop2. 6 版 本 的 HDFS。 

三 、 启 动 Hadoop 支持 环境 

Hadoop 集群 环境 的 搭建 请 参考 王家 林 老 师 的 《大 数据 Spark 企业 级 实践 》， 在 此 不 再 


BOR, 
Hadoop 环境 对 Spark 的 支持 主要 有 两 方面 : 
1. 通过 HDFS 实现 底层 存储 系统 的 支持 
HDFS 是 一 个 主 / 从 (Mater/Slave) 式 的 体系 结构 ， 从 最 终 用 户 的 角度 来 看 ， 它 就 像 传 
统 的 文件 系统 一 样 ， 可 以 通过 目录 路 径 对 文件 执行 CRUD (Create, Read, Update 和 Delete ) 
操作 。 但 由 于 分 布 式 存储 的 性 质 ，HDFS 集群 拥有 一 个 NameNode 和 一 些 DataNode, Name- 
Node 管理 文件 系统 的 元 数据 ，DataNode 存储 实际 的 数据 。 客 户 端 通过 同 NameNode 和 Data- 
Nodes 的 交互 访问 文件 系统 。 客 户 端 通过 访问 NameNode 来 获取 文件 的 元 数据 ， 而 真正 的 文 
件 L/O 操作 是 直接 和 DataNode 进行 交互 的 。 

2. 通过 Yarn 实现 集群 资源 管理 的 支持 

Yarn 是 Hadoop 2. 0 新 增 的 集群 资源 管理 系统 ， 负 责 集群 的 资源 管理 和 调度 ， 使 得 多 种 
计算 框架 可 以 运行 在 一 个 集群 中 。 
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如 果 使 用 Spark 自 带 的 资源 管理 器 ， 即 使 用 Spark Standalone 模式 的 话 ， 只 需要 提供 Ha- 
doop 的 HDFS 支持 ;如 果 同 时 使 用 了 Hadoop 的 集群 资源 管理 器 ， 即 采用 Spark on Yarn 模式 
的 话 ， 需 要 同时 提供 Hadoop 的 Yarn, 

在 集群 中 的 Master 节点 上 ， 分 别 启 动 HDFS 和 Yam, 

四 、Hadoop HDFS 的 格式 化 

Hadoop 的 HDFS 部 署 好 了 之 后 并 不 能 马上 使 用 ， 而 是 先 要 对 配置 的 文件 系统 进行 格式 
化 。 在 这 里 要 注意 两 个 概念 ， 一 个 是 文件 系统 ， 此 时 的 文件 系统 在 物理 上 还 不 存在 ， 或 许 用 
网 络 磁盘 来 描述 会 更 加 合适 ; 二 就 是 格式 化 ， 此 处 的 格式 化 并 不 是 指 传统 意义 上 的 本 地 磁盘 
格式 化 ， 而 是 一 些 清除 与 准备 工作 。 在 Hadoop 部 署 目 录 下 输入 命令 


[ harli@ wxx214 hadoop - 2. 6.0] $ ./bin/hdfs — namenode - format 
执行 结果 如 下 所 示 : 


15/04/01 10:41:31 INFOnamenode. NameNode:STARTUP MSG: 


J 78 26 k k oR ok oR ak k ak ak ak ok ok ok ok ok ok ak ak ok ak ok ok ak ak ak ok ak ok ak k ok ok ak ok ak ok ok ak ak ok ok ok ok ak ok k ok ok ok ok ok ok k K ok ok 


STARTUP_MSG: StartingNameNode 


STARTUP MSG: host = cluster01/192. 168. 242. 131 

STARTUP MSG;  args-[ - format] 

STARTUP MSG:; version 22. 6. 0 

STARTUP_MSG; classpath = /home/harli/cluster. 13/hadoop/etc/ hadoop :/ home/harli/cluster 


13/hadoop/share/hadoop/ commov/ lib/jackson — xc — 1. 9. 13. jar:……… = 
STARTUP_MSG: build = Unknown - r Unknown; compiled by root on 2015 -01 —05T10:00Z 
STARTUP MSG; java=1.7.0_71 


启动 集群 的 HDFS 服务 
格式 化 NameNode 后 ， 在 Master 节点 用 启动 脚本 启动 集群 HDFS， 在 Hadoop 部 署 目录 下 
输入 命令 . /sbin/start - dfs. sh， 启 动 ds ， 运 行 该 命令 结果 如 下 : 


[ harli@ wxx214 hadoop -2.6.0]$ . /sbin/start - dfs. sh 

Startingnamenodes on [ wxx214 ] 

wxx214 :starting namenode ,logging to /home/harli/cluster_13/hadoop - 2. 6. 0/logs/hadoop - harli — na- 
menode — wxx214. out 

wxx223 : starting datanode , logging to /home/harli/cluster. 13/hadoop — 2. 6. 0/logs/hadoop — harli — data- 
node — wxx223. out 

wxx225 ; starting datanode , logging to /home/harli/cluster. 13/hadoop — 2. 6. 0/logs/hadoop - harli — data- 
node — wxx225. out 

wxx215 : starting datanode , logging to /home/harli/cluster. 13/hadoop — 2. 6. 0/logs/hadoop — harli — data- 
node — wxx215. out 

Starting secondarynamenodes [ wxx214 ] 

wxx214 :starting secondarynamenode , logging to /home/harli/cluster_13/hadoop - 2. 6. 0/logs/hadoop — 
harli — secondarynamenode — wxx214. out 

[ harli@ wxx214 hadoop - 2. 6.0] $ jps 

29524 Ips 

28542ResourceManager 

26646TachyonMaster 

29404SecondaryNameNode 

292]2NameNode 
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9373 Master 
对 应 的 停止 dfs 的 命令 为 . /sbin/stop - dfs. sh， 运 行 该 命令 结果 如 下 : 


[ harli@ wxx214 hadoop - 2. 6. 0] $ . /sbin/stop - dfs. sh 
Stoppingnamenodes on [ wxx214 ] S 
wxx214 : stopping namenode 

wxx223 : stopping datanode 

wxx225 :stopping datanode 

wxx215 :stopping datanode 

Stopping secondarynamenodes [ wxx214 | 

wxx214 : stopping secondarynamenode 

[ harli@ wxx214 hadoop - 2.6.0] $ jps 

30144 Jps 

28542ResourceManager 

26646TachyonMaster 

9373 Master 


六 、 启 动 集群 的 Yarn 服务 

如 果 要 使 用 Spark on Yarn 模式 ， 在 Hadoop 的 资源 管理 器 Yarn 下 提交 应 用 的 话 ， 可 以 通 
过 Yam 启动 脚本 来 启动 集群 的 Yarn， 在 Hadoop 部 署 目 录 下 输入 命令 . / sbin/start — yarn. sh, 
运行 该 命令 结果 如 下 : 


[ harli@ wxx214 hadoop -2.6.0] $ . /sbin/start — yarn. sh 


starting yarn daemons 


startingresourcemanager , logging to /home/harli/cluster. 13/hadoop - 2. 6. 0/logs/yarn — harli — resource- 
manager — wxx214. out 

wxx223 :starting nodemanager, logging to /home/harli/cluster_13/hadoop - 2. 6. 0/logs/yarn — harli — 
nodemanager — wxx223. out 

wxx225 ; starting nodemanager, logging to /home/harli/cluster _13/hadoop — 2. 6. 0/logs/yarn - harli — 
nodemanager — wxx225. out 

wxx215 starting nodemanager, logging to /home/harli/cluster_13/hadoop - 2. 6. 0/logs/yarn — harli — 
nodemanager — wxx215. out 

[ harli@ wxx214 hadoop - 2.6.0] $ jps 

26646TachyonMaster 

27935 Jps 

27669 ResourceManager 

9373 Master 


对 应 的 停止 Yam 命令 为 . /sbin/stop — yarn. sh， 运 行 代码 如 下 : 


[ harli@ wxx214 hadoop -2. 6.0] $ . /sbin/stop — yarn. sh 
stopping yarn daemons 

stoppingresourcemanager 

wxx223 : stopping nodemanager 

wxx225 :stopping nodemanager 

wxx215 :stopping nodemanager 


noproxyserver to stop 


从 启动 和 停止 后 的 Ips 信息 中 ， 可 以 看 出 对 应 服务 的 进程 信息 。 
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七 、 启 动 Spark 集群 


Spark 集群 环境 的 搭建 请 参考 王家 林 老 师 的 《大 数据 Spark 企业 级 实践 》 一 书 。 


进入 Spark 部 署 目 录 ， 输 入 命令 start - all， 启 动 Spark 集群 : 


[ harli@ wxx214spark -1.3.0 -bin — hadoop2. 4] $ . /sbin/start — all. sh 


starting org. apache. spark. deploy. master. Master , logging to /home/ harli/cluster. 13/spark — 1. 3. 0 -bin 
— hadoop2. 4/sbin/. . /logs/spark - harli — org. apache. spark. deploy. master. Master — 1 — wxx214. out 

wxx225 : starting org. apache. spark. deploy. worker. Worker, logging to /home/harli/cluster, 13/spark — 
1.3.0 - bin - hadoop2. 4/sbin/. . /logs/spark - harli — org. apache. spark. deploy. worker. Worker — 1 


— wxx225. out 


wxx223 : starting org. apache. spark. deploy. worker. Worker, logging to /home/harli/cluster, 13/spark — 
1.3.0 - bin - hadoop2. 4/sbin/. . /logs/spark — harli — org. apache. spark. deploy. worker. Worker — 1 


— wxx223. out 


wxx215 ; starting org. apache. spark. deploy. worker. Worker, logging to /home/harli/cluster, 13/spark — 
1.3.0 - bin - hadoop2. 4/sbin/. . /logs/spark — harli — org. apache. spark. deploy. worker. Worker — 1 


— wxx215. out 


[ harli@ wxx214spark — 1. 3. 0 — bin — hadoop2. 4] $ jps 
30264NameNode 

28542ResourceManager 

26646TachyonMaster 

30774 Master 

30925 Jps 

30461SecondaryNameNode 


对 应 的 停止 命令 为 stop - a 纪 ， 程 序 执行 代码 如 下 所 示 : 


[ harli@ wxx214 spark — 1. 3. 0 -bin — hadoop2. 4] $ ./sbin/stop — all. sh 
wxx225 :stopping org. apache. spark. deploy. worker. Worker 

wxx223 :stopping org. apache. spark. deploy. worker. Worker 

wxx215 :stopping org. apache. spark. deploy. worker. Worker 

stopping org. apache. spark. deploy. master. Master 


[ harli@ wxx214 spark — 1. 3. 0 — bin — hadoop2. 4] $ jps 
30264NameNode 

28542ResourceManager 

26646TachyonMaster 

30692 Jps 

30461SecondaryNameNode 


八 、 查 看 当前 集群 启动 进程 情况 


在 Master 节点 ， 使 用 jps 命令 查看 进程 启动 情况 ， 输 入 命令 后 执行 结果 如 下 : 


[ harli@ wxx214 hadoop - 2.6.0] $ jps 
26646TachyonMaster 

22716 Jps 

2609 ResourceManager 

2347Secondary NameNode 
2142NameNode 
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3187 Master 


由 上 述 执行 结果 可 知 ， 当 前 Hadoop 的 NameNode, ResourceManager 等 Master 进程 和 
Spark 的 Master 进程 部 署 在 同一 台 机 器 上 ， 即 这 里 的 命令 行 提 示 信 息 中 的 wxx214 节 
点 上 。 

其 中 各 个 服务 支持 的 进程 对 应 关系 如 下 : 

1) Hadoop 的 HDFS 服务 : NameNode 进程 。 

2) Hadoop 的 Yarn 服务 : ResourceManager 进程 。 

3) Spark 的 Master 服务 : Master 进程 。 

在 Slaves 节点 ， 使 用 jps 命令 查看 进程 启动 情况 ， 命 令 执行 结果 如 下 : 

[ harli@ wxx215 hadoop -2.6.0]$ jps 
29031 Jps 
6243 Worker 


5982NodeManager 
5851DataNode 


其 中 各 个 服务 支持 的 进程 对 应 关系 如 下 : 

1) Hadoop 的 HDFS 服务 : DataNode 进程 。 
2) Hadoop 的 Yam 服务 : NodeManager 进程 。 
3) Spark 的 Slave 服务 : Worker 进程 。 


2.2.2 交互 式 工 具 的 启动 > 


一 、 交 互 式 工 具 的 启动 
进入 Spark 部 署 目录 ， 基 于 单机 模式 启动 spark - shell 应 用 ， 在 命令 行 提示 符 $ 后 面 输 
入 命令 . /bin/spark - shell -- masters W F PFZ; : 


[ harli@ wxx215 spark — 1. 3. 0 -bin — hadoop2. 4] $ . /bin/spark - shell -- master 
spark ://192. 168. 70. 214.7077 


之 后 出 现 如 下 信息 ， 这 些 信息 中 包含 了 交互 式 工具 运行 的 环境 信息 (如 是 否 带 Hive 等 ) 
以 及 预 构建 的 一 些 实例 (如 预 构 建 的 SparkContext 和 SQLContext 实例 等 ) : 


Spark assembly has been built with Hive,includingDatanucleus jars on classpath 

15/04/03 10:58:54 WARN util. NativeCodeLoader: Unable to load native — hadoop library for your plat- 
form... using builtin — java classes where applicable 

15/04/03 10:58:54 INFO spark. SecurityManager; Changing view acls to:harli 

15/04/03 10:58:54 INFO spark. SecurityManager; Changing modify acls to; harli 

15/04/03 10:58:54 INFO spark. SecurityManager ; Security Manager: authentication disabled;ui acls disa- 
bled;users with view permissions ; Set( harli) ; users with modify permissions ; Set( harli ) 

15/04/03 10:58:54 INFO spark. HttpServer : Starting HTTP Server 

15/04/03 10:58:55 INFO server. Server : jetty — 8. y. z - SNAPSHOT 

15/04/03 10:58:55 INFO server. AbstractConnector : Started SocketConnectorQ 0. 0. 0. 0:57536 
15/04/03 10:58:55 INFO util. Utils: Successfully started service’ HTTP class server on port 57536. 


Welcome to 


ff // 


NAGS ANT LA 
Áo /._/\_,////\_\ version 1.3.0 
vA 


Using Scala version 2. 10. 4 (Java HotSpot( TM) Server VM, Java 1.7.0) 
Type in expressions to have them evaluated. 


Type:help for more information. 


后 会 生成 SparkContext 和 SQLContext 两 个 实例 ， 这 两 个 实例 对 应 的 名 称 分 别 为 se 和 
E Spark 1. 3 版 本 在 交互 式 工具 spark - shell 启动 后 ， 自 动 构建 了 这 两 个 实例 ， 通 常 
用 SparkContext 代表 Driver Program, 

在 实例 中 将 直接 使 用 sqlContext 进行 操作 ， 生 成 SparkContext 和 SQLContext 两 个 实例 见 
下 面 日 志 信息 : 


15/04/03 10:59:03 INFOrepl. SparkILoop : Created spark context. . 

Spark context available as sc. 

15/04/03 10:59:03 INFOrepl. SparkILoop : Created sql context (with Hive support). . 

SQL context available assqlContext. 

15/04/03 10: 59: 05 INFO cluster. SparkDeploySchedulerBackend: Registered executor; Actor [ ak- 
ka. tep://spark Executor@ wxx225: 18129/user/Executor# — 1906560325 | with ID 0 

15/04/03 10: 59: 05 INFO cluster. SparkDeploySchedulerBackend; Registered executor; Actor [ ak- 
ka. tep ://sparkExecutor@ wxx223: 52922/user/Executorst — 1906560325 | with ID 2 

15/04/03 10:59:05 INFO storage. BlockManagerMasterActor ; Registering block managerwxx225 : 18869 
with 265. 0 MB RAM, BlockManagerld( 0 , wxx225 ,18869) 

15/04/03 10:59:05 INFO storage. BlockManagerMasterActor; Registering block managerwxx223 : 44620 
with 265. 0 MB RAM, BlockManagerld(2 , wxx223 ,44620) 


回 车 后 就 可 以 进入 Spark 应 用 程序 的 交互 式 界面 ， 可 以 进行 Spark 应 用 程序 的 交互 式 开 
发 、 调 试 了 。 交 互 式 界面 上 ， 输 入 命令 的 提示 以 scala > 开头 ， 执 行 输入 的 命令 后 会 给 出 命 
令 执 行 的 日 志和 反馈 信息 。 

当前 交互 式 工具 spark - shell 使 用 了 默认 值 -- deploy - mode, BPX ðm (Client) 部 
署 模式 启动 ， 因 此 ， 启 动 的 Driver Program 在 提交 节点 上 运行 。 通 过 启动 节点 的 http ://driv- 
er:4040 地 址 可 以 打开 Driver 的 Web Interface 界面 。 

二 、 交 互 式 工 具 的 多 次 启动 

(一 ) 在 Spark 1.3 之 前 的 版 本 

在 Spark1. 3 之 前 的 版 本 时 ， 若 要 在 相同 节点 上 启动 多 个 Spark 应 用 程序 时 〈 特 指 部 署 模 
式 为 “Client” 的 情况 下 ，Spark 应 用 程序 的 Driver Program 在 启动 节点 上 运行 )， 比 如 用 交 
互 式 工具 的 方式 多 次 启动 Spark 应 用 程序 时 ， 系 统 会 报 以 下 错误 ， 如 图 2. 3 所 示 : 

这 种 情况 下 ， 后 启动 的 Spark 应 用 程序 的 Driver 仍然 使 用 了 默认 的 4040 端口 ， 以 致 启 
动 时 地 址 被 占用 ， 进 而 最 终 Spark 应 用 程序 启动 失败 。 

对 应 的 解决 方法 如 下 、 

1. 查看 代码 .SparkULI. scala 
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defgetUIPort ( conf:SparkConf) :Int = | conf. getInt( " Spark. ui. port" , SparkUI. DEFAULT. PORT) | 


[root@n2 bin]# ./spark-submit --class PowerStreamStatis.RealToMinStatis /usr/l 
al/yl/streamingTest.jar nl 9998 9993 


connect success S 
15/01/27 18:58:51 WARN AbstractLifeCycle: FAILED SelectChannelConnector@0.0.0.0: 
4048: java.net.BindException: 地 址 已 在 使 用 
java.net.BindException: Aic TE A 

at sun.nio.ch.Net.bind8(Native Method) 

at sun.nio.ch.Net.bind(Net.java:444) 

at sun.nio.ch.Net.bind(Net.java:436) 

at sun.nio.ch.ServerSocketChannellmpl.bind(ServerSocketChannellmpl.java: 
214) 

at sun.nio.ch.ServerSocketAdaptor.bind(ServerSocketAdaptor.java:74) 

at org.eclipse.jetty.server.nio.SelectChannelConnector.open(SelectChanne 
lConnector.java:187) 

at org.eclipse.jetty.server.AbstractConnector.doStart(AbstractConnector. 


LER 


到 2.3 Driver Program Ja abit Hehe i HS ES rf 


2. 修改 配置 ， 添 加 spark. ui. port 属性 。 如 提交 时 ， 添 加 : --conf "spark. ui. port" = 
4041 即 可 。 

注意 : Spark 的 属性 配置 可 以 通过 三 种 方式 进行 设置 : 

1) 可 以 在 程序 部 署 时 的 提交 命令 的 —— conf 选项 中 通过 设置 Spark 的 配置 文件 (如 conf/spark - 
defalut. conf) 进行 设置 。 

2) 可 以 在 Spark 的 环境 变量 文件 中 的 java 启动 选项 (如 在 conf/spark — env. sh 文件 中 的 环境 变量 Spark 
_DAEMON_JAVA_OPTS) 里 添加 Spark 的 属性 配置 。 

3) 可 以 通过 指定 配置 文件 等 方式 进行 设置 。 

如 果 spark. ui. port 的 值 设置 为 0， 系 统 就 会 随机 选取 一 个 端口 号 。 参 考 源 码 : java. net. ServerSocket: 
ServerSocket 对 象 的 绑 定 端口 为 0，getLocalPort 方法 返回 一 个 随机 的 端口 (这 类 端口 被 称 为 匿名 端口 ) 。 

(二 ) Spark 1. 3 版 本 

Sparkl. 3 版 本 可 在 一 个 节点 上 多 次 启动 Spark 应 用 程序 ， 如 多 次 运行 交互 式 工具 
spark - shell。 具 体 方式 是 ，Sparkl1. 3 在 已 启动 应 用 程序 的 计算 机 上 再 次 启动 应 用 时 ， 如 
果 启 动 应 用 的 命令 没有 指定 Driver Progam 的 Web Interface 的 端口 号 的 话 ， 启 动 的 应 用 会 
先 从 默认 的 端口 4040 开始 启动 ， 由 于 该 端口 已 经 被 占用 ， 因 此 首次 启动 时 会 报错 ， 如 下 
面 的 日 志 所 示 : 


Welcome to 


/ _/ // 

YEV UST Yt y 

Z /._/\_,////\_\ version 1.3. 0 
PA 


Using Scala version 2. 10. 4 (Java HotSpot( TM) Server VM, Java 1. 7. 0) 
Type in expressions to have them evaluated. 
Type:help for more information. 


15/04/03 15:55:23 INFO spark. SparkContext ; Running Spark version 1. 3. 0 


15/04/03 15:55:23 IN 
15/04/03 15:55:23 IN 
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FO spark. SecurityManager: Changing view acls to; harli 


FO spark. SecurityManager; Changing modify acls to; harli 


15/04/03 15:55:23 INFO spark. SecurityManager ; Security Manager ; authentication disabled; ui acls disa- 


bled;users with view permissions ; Set( harli) ; users with modify permissions :Set( harli ) 


15/04/03 15:55:23 IN 
15/04/03 15:55:23 IN 
15/04/03 15:55:24 IN 
wxx215: 52994 ] 
15/04/03 15:55:24 IN 
15/04/03 15:55:24 IN 


15/04/03 15:55:24 IN 


FO slf4j. SlfAjLogger:SIfAjLogger started 
FORemoting ; Starting remoting 


FORemoting ; Remoting started ; listening on addresses :| akka. tep ://sparkDriver@ 


FO util. Utils ; Successfully started service’ sparkDriver on port 52994. 
FO spark. SparkEnv ; Registering MapOutputTracker 
FO spark. SparkEnv ; Registering BlockManagerMaster 


15/04/03 15:55:24 INFO storage. DiskBlockManager: Created local directory at /tmp/spark — 201897f2 


00e5 — 4ffa — b346 
15/04/03 15:55:24 IN 
15/04/03 15:55:24 IN 
1619 — 499a — ac96 - 5 
15/04/03 15:55:24 IN 
15/04/03 15:55:24 IN 
15/04/03 15:55:24 IN 
15/04/03 15:55:24 IN 
15/04/03 15:55:24 IN 


1827ae9b02d/httpd - 7c435146 — 3962 - 48de 


15/04/03 15:55:24 IN 


151642a68611/blockmgr — d73fcef7 — aea5 -4bb9 — 8b0a — 96e01a50580d 

FO storage. MemoryStore ; MemoryStore started with capacity 265. 0 MB 

FO spark. HttpFileServer; HTTP File server directory is /tmp/spark — bd5925eb — 
9414 - bbafl ebedc00 


FO spark. HttpServer ; Starting HTTP Server 

FO server. Server; jetty — 8. y. z - SNAPSHOT 

FO server. AbstractConnector ; Started SocketConnector@ 0. 0. 0. 0:61139 
FO util. Utils ; Successfully started service’ HTTP file server on port 61139. 
FO spark. SparkEnv ; Registering OutputCommitCoordinator 

FO server. Server ;jetty — 8. y. z - SNAPSHOT 


15/04/03 15:55:24 WARN component. AbstractLifeCycle ; FAILED SelectChannelConnector@ 0. 0. 0. 0: 
4040 : java. net. BindException :地 址 已 在 使 用 


java. net. BindException :地 址 已 在 使 


用 


at sun. nio. ch. Net. bind0(Native Method ) 


著 认 端口 4040 绑 定 失败 后 ， 
试 重 新 启动 Spark 应 用 ， 直 到 找到 一 个 可 用 的 端口 号 为 止 ， 这 时 候 ， 启 动 Driver Program 成 
功 ， 进 入 交互 式 界面 。 下 列 
代码 执行 结果 如 下 : 


15/04/03 15:55:24 IN 
15/04/03 15:55:24 
port 4041. 

15/04/03 15:55:24 IN 
15/04/03 15:55:24 IN 
15/04/03 15:55:24 IN 


提交 应 用 程序 会 递增 端口 号 (4041 、4042 、 


代码 所 示 为 已 经 成 功 绑 定 了 4041 端口 号 ， 成 功 启动 Spark 应 用 ， 


FO handler. ContextHandler:stopped o. s. j. s. ServletContextHandler | /jobs , null | 


WARN util. Utils; Service’ SparkUI could not bind on port 4040. Attempting 


FO server. Server:jetty — 8. y. z - SNAPSHOT 
FO server. AbstractConnector ; Started SelectChannelConnector@ 0. 0. 0. 0:4041 
FO util. Utils :Successfully started service’ SparkUI on port 4041. 


15/04/03 15:55:24 INFO ui. SparkUI ; Started SparkUI at http ://wxx215:4041 


15/04/03 15:55:24 IN 
@ 192. 168. 70. 214:70 
15/04/03 15:55:25 IN 
app — 20150403155539 


FO client. AppClient $ ClientActor; Connecting to master akka. tcp ;//sparkMaster 

77/user/ Master. . . 

FO cluster. SparkDeploySchedulerBackend ; Connected to Spark cluster with app ID 
— 0004 


15/04/03 15:55:25 INFO netty. NettyBlockTransferService;Server created on 33612 

15/04/03 15:55:25 INFO storage. BlockManagerMaster ; Trying to register BlockManager 

15/04/03 15:55:25 INFO storage. BlockManagerMasterActor; Registering block managerwxx215 : 33612 
with 265. 0 MB RAM, BlockManagerld( < driver > ,wxx215 ,33612) 

15/04/03 15:55:25 INFO storage. BlockManagerMaster ; Registered BlockManager 
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15/04/03 15:55:26 INFO scheduler. EventLoggingListener; Logging events tohdfs ;//wxx214: 9000/logs/ 

app — 20150403155539 - 0004 

15/04/03 15:55:26 INFO cluster. SparkDeploySchedulerBackend :SchedulerBackend is ready for schedu- 

ling beginning after reached minRegisteredResourcesRatio :0. 0 © 
15/04/03 15:55:26 INFOrepl. SparkILoop : Created spark context. . 

Spark context available as sc. 


15/04/03 15:55:26 INFOrepl. SparkILoop : Created sql context (with Hive support). . 


SQL context available assqlContext. 


=, Driver Program 的 Web Interface 界面 

Driver Program 的 Web Interface 界面 用 于 查看 该 Driver Program 的 信息 ， 包 括 Driver Pro- 
gram 的 Jobs 信息 、 Stages 信息 、 Storage 信息 、Environment 信息 和 Executors 信息 。 

(一 ) 打开 Web Interface 页 面 

Web Interface 地 址 : http://driverhost:4040/jobs/, AHIMA AWA 2. 4 所 示 。 


Spa ian Jobs Stages Storage Environment Executors Spark shell application Ul 


Spark Jobs (?) 


Total Duration: 4.5 min 
Scheduling Mode: FIFO 


Al 2.4 Driver Program 监控 界面 


HB, driverhost 为 交互 式 工 具 启 动 节点 的 hostname, 
Web Interface 界面 包含 Spark 版 本 信息 ， 以 及 当前 Driver Program 中 的 Jobs, Stages, 
Storage, Environment 以 及 Executors 信息 。 
注意 : 当 使 用 hostname 时 ， 需 要 保证 已 经 在 系统 的 hosts 配置 文件 中 添加 了 hostname 与 IP 地 址 的 对 
应 关系 。 在 Linx 系统 上 ，hosts 的 配置 方法 如 下 : 
1. 使 用 vim 工具 打开 hosts 文件 : vim /etc/hosts。 
2. 在 文件 中 添加 配置 的 hostname 与 IP 的 映射 关系 ， 比 如 : 
[ harli@ cluster04Spark | $ cat /etc/hosts 
#127.0.0.1 localhost localhost. localdomain localhost4 localhost4. localdomain4 
#::1 localhost localhost. localdomain localhost6 localhost6. localdomain6 
192. 168. 242. 134 cluster01 
192. 168. 242. 135 cluster04 
192. 168. 242. 136  cluster05 
192. 168. 242. 137 cluster06 


(=) Web Interface 界面 内 容 解析 

Driver Program 的 Web Interface 界面 中 各 个 Tab 页 包含 的 详细 信息 如 下 : 

1. Jobs 页。 打开 driver program 监控 界面 时 的 默认 页 ， 如 图 2.5 所 示 。 

在 Jobs 页 中 ,包含 了 当前 Driver Program 运行 持续 的 时 间 ， 当 前 Jobs 的 调度 模式 (默认 
调度 模式 为 FIFO) 以 及 全 部 Jobs 的 具体 信息 。 

ER: 由 于 当前 未 提交 任何 Job， 界面 的 Jobs 内 容 为 空 。 

2. Stages 页 。 显 示 当 前 Driver Program 所 有 Jobs 的 Stages 信息 ， 包 含 的 具体 内 容 如 
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Spa — Jobs Stages Storage Environment Executors Spark shell application UI 


Spark Jobs (?) 


Total Duration: 4.5 min 
Scheduling Mode: FIFO 


图 2.5 Driver Program 监控 界面 的 Jobs 页 


图 2. 6 所 示 。 


Jobs Stages Storage Environment Executors Spark shell application UI 
OfK 130 


Spark Stages (for all jobs) 


Total Duration: 12 min 
Scheduling Mode: FIFO 


图 2.6 Driver Program 监控 界面 的 Stages 页 


在 Stages 页 面 ， 包 含 了 当前 Driver Program 运行 持续 的 时 间 ， 当 前 Stages 的 调度 模式 
(默认 调度 模式 为 FIFO) 以 及 全 部 Jobs 的 Stages 的 具体 信息 。 
3. Storage 页 。 显 示 当 前 Driver Program 所 有 Jobs 的 Storage 信息 ， 包 含 的 具体 内 容 如 


图 2.7 所 示 。 
Spake "T Jobs Stages | Storage | Environment Executors Spark shell application Ul 
Storage 
RDD Name Storage Level Cached Partitions Fraction Cached Size in Memory Size in Tachyon Size on Disk 


2.7 Driver Program 监控 界面 的 Storage 页 


在 Stages 页 面 ， 包含 了 当前 Driver Program 的 存储 信息 ， 存 储 信息 包含 了 RDD 的 名 字 、 
存储 级 别 、 缓 存 的 分 区 数 、 缓 存 分 区 占 全 部 分 区 的 比例 、 缓 存在 内 存 的 数据 大 小 、 缓 存在 
Tachyon 中 的 数据 大 小 、 存 储 在 磁盘 的 数据 大 小 。 

4. Environment 页 。 显 示 当 前 Driver Program 的 Environment 信息 ; 包含 的 具体 内 容 如 
图 2. 8 所 示 。 

在 Environment 页 面 ， 包 含 了 当前 Driver Program 的 环境 配置 信息 ， 上 有 具体 包 含 四 大 类 ; 
Runtime Information, Spark Properties, System Properties 以 及 Classpath Entries , 

5. Executors 页 。 显 示 当 前 Driver Program 的 Executors 信 息 ， 包含 的 具体 内 容 如 图 2.9 
所 示 。 

在 Environment HH, 包含 了 当前 Spark 应 用 程序 用 到 的 Executors 信息 ， 包 含 当 前 Spark 
应 用 程序 分 配 的 总 内 存 大 小 ， 使 用 的 磁盘 大 小 以 及 Executor 的 具体 信息 。 

Executor 的 信息 包含 : Executor 的 ID、 执 行 的 地 址 (host: port), RDD 的 AA ， 
( Blocks) 、 内 存 使 用 大 小 、 磁 盘 使 用 大 小 、 当 前 Active 状态 的 任务 数 、 失 败 的 任务 数 、 总 自 
任务 数 等 信息 。 

由 于 当前 Spark 应 用 程序 仅 启 动 了 Driver Program， 故 只 分 配 了 一 个 Executor， 并 且 Exec- 
utor ID 为 < driver > 。 
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Spaik® - Jobs Stages Storage Environment Executors Spark shell application UI 


Environment 


Runtime Information 


Name Value 

Java Home DJavaljdk1.7.0 7t'jre 

Java Version 1.7.0 71 (Oracle Corporation) 
Scala Version version 2.10.4 
Spark Properties 

Name Value 

spark.app.id local-1427296029170 

spark app.name Spark shell 

spark.driver-host lenovo PG 

spark.driver.port 49735 

spark executor id «driver» 

spark fileserver.uri http://192.168.1.103:49736 
spark jars 

spark master local["] 

snark renl nlass uri httn-//182 168 1 10113-48684 4 


图 2.8 Driver Program 监控 界面 的 Environment 页 


Spa T Jobs Stages Storage Environment Executors Spark shell application UI 


Executors (1) 


Memory: 0.0 B Used (265.4 MB Total) 


Disk: 0.0B Used 
Executor RDD Memory Disk Aclive Failed Complete Total Task Shuffle Shuffle Thread 
ID Address Blocks Used Used Tasks Tasks Tasks Tasks Time Input Read Write Dump 
«driver» localhost:49758 0 0.0B/2654 00B 0 0 0 0 0 ms 00B 0.0B 0.0B Thread 
MB Dump 


2.9 Driver Program 监控 界面 的 Executors 页 


so 文本 数据 的 ETL 案例 实践 与 解析 


一 般 情 况 下 ， 公 司 内 部 需要 处 理 的 文件 都 是 以 文本 文件 的 格式 保存 ， 包 括 公司 的 网 站 访 
问 日 志文 件 、 公 司 系统 运行 监控 日 志文 件 等 ， 在 收集 到 这 些 文本 文件 后 ， 需 要 进行 各 种 数据 
处 理 ， 包 括 数 据 的 抽取 -转换 - 装载 (Extract - Transform - Load，ETL) 、 数 据 统计 、 数 据 
挖掘 ， 以 及 为 后 续 的 数据 呈现 和 为 决策 而 提供 的 数据 持久 化 。 这 里 给 出 的 文本 文件 的 处 理 过 
程 ， 包 含 了 对 外 部 文件 的 加 载 ， 对 文件 数据 的 转换 、 过 滤 、 各 种 数据 统计 ， 以 及 处 理 结果 的 
存储 。 

一 、 准 备 要 处 理 的 文件 

1. 在 Hadoop 部 署 目录 下 输入 查询 、 创建 目录 命令 ， 以 查看 文件 系统 : 


[ harli@ wxx214 hadoop - 2. 6.0] $ . /bin/hdfs dfs - ls / 
[ harli@ wxx214 hadoop - 2.6.0] $ . /bin/hdfs dfs — mkdir /user 
[ harli@ wxx214 hadoop - 2.6.0] $ . /bin/hdfs dfs - ls / 


Foundl items 


drwxr-xr-x  -hdfs supergroup 0 2015 -01 -22 10:54 /user 


除了 以 命令 行 方式 查看 检查 文件 外 ， 还 可 以 登录 Hadoop 的 Web Interface (http: // name- 


node:50070) 页 面 查看 文件 ， 如 图 2. 
当前 环境 下 的 节点 地 址 为 192. 168. 70. 214 , 
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10 所 示 。 其 中 namenode 为 启动 NameNode 进程 的 节点 ， 


Hadoop Overview Datanodes Snapshot Startup Progress 


Browse Directory 


/ 


«€ [8 1.50070/explorer.html s*/ v E [Ie Google d 
Browse the file system mm 
Logs 
Go! 
Size Replication Block Size Name 
828B 1 128 MB mobile.csv 
0B 0 0B result 


Permission Owner Group 
-TW-r-r-- harli supergroup 
drwxr-xr-x harli supergroup 
drwxr-xr-x harli supergroup 
2.10 


0B 0 0B 


Hadoop 的 文件 系统 查看 界面 


2. 将 本 地 文件 README. md 上 传 到 Hadoop : 


[ harli wxx214 hadoop -2. 6.0] $ ./bin/hdfs dfs — put /home/harli/cluster 13/Spark - 1. 3. 0 — bin - 


hadoop2. 4/README. md /user 


[ harli@ wxx214 hadoop - 2. 6.0] $ ./bin/hdfs dfs — ls / user 


Foundl items 


-rw-r--r-- harli supergroup 3629 2015 —03 - 26 10:36 /user/ README. md 


登录 Web Interface (http://namenode:50070) 页 面 ， 查 看 文件 ， 文件 已 经 添加 到 /user 
目录 ， 添 加 后 的 文件 系统 如 图 2. 11 所 示 。 


«& [@ clustero4:50070/explorer.html#/user 


¥ &) [Mv Goose ga) 


Hadoop 


Browse Directory 


Permission Owner Group 


-TW-r-r—- harli supergroup 


Size Replication Block Size Name 


3.54 KB 1 128 MB README.md 


图 2.11 Hadoop 的 文件 系统 界面 界面 上 传 结果 


二 、 启 动 交互 式 界 面 


1. 基于 集群 模式 启动 spark - shell 应 用 : 


[ harli @ wxx215 Spark — 1.3.0 - bin - hadoop2.4] $ ./bin/spark - shell — — master Spark :// 


192. 168. 70. 214: 7077 


其 中 ， Spark ://192. 168. 70. 214: 7077 为 当前 集群 的 MasterURL。 需 要 注意 的 是 ， 
MasterURL 必须 和 Spark 界面 (http: //master:8080) 上 一 致 ，hostname 和 IP 之 间 不 能 互相 


THÉ, 
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启动 交互 式 spark - shell 工具 时 ， 交 互 式 spark - shell 工具 默认 构建 SparkContext 和 SQL- 
Context 实例 ， 分 别 为 se 和 sqlContext ; 


15/04/03 02:50:41 INFOBlockManagerMaster ; Registered BlockManager 
15/04/03 02:50:42 INFOSparklILoop : Created spark context. . © 
Spark context available as sc. 

15/04/03 02:50:43 INFOSparkILoop : Created sql context ( with Hive support). . 

SQL context available assqlContext. 


2. 加 载 文 件 构建 RDD, WAMA: val textFile = sc. textFile ( " /user/ README. md" ) , JA 
行 结果 如 下 所 示 : 


scala > val textFile = sc. textFile( " /user/README. md" ) 

15/04/03 11: 22: 02 INFO storage. MemoryStore; ensureFreeSpace ( 206436 ) called with curMem = 
724503 , maxMem = 277842493 

15/04/03 11:22:02 INFO storage. MemoryStore: Block broadcast 7 stored as values in memory ( esti- 
mated size 201. 6 KB ,free:264. 1 MB) 

15/04/03 11: 22: 02 INFO storage. MemoryStore; ensureFreeSpace (31717) called with curMem = 
930939 , maxMem = 277842493 

15/04/03 11:22:02 INFO storage. MemoryStore; Block broadcast 7. pieceO0 stored as bytes in memory 
(estimated size 31. 0 KB, free:264. 1 MB) 

15/04/03 11:22:02 INFO storage. BlockManagerlInfo ; Added broadcast 7. piece0 in memory on wxx215: 
21048 (size:31. 0 KB,free:264. 8 MB) 

15/04/03 11:22:02 INFO storage. BlockManagerMaster ; Updated info of block broadcast, 7. piece0 
15/04/03 11:22:02 INFO spark. SparkContext ; Created broadcast 7 from textFile at < console > :24 
textFile:org. apache. spark. rdd. RDD[ String] =/user/README. md MapPartitionsRDD[ 13] at textFile 
at < console > :24 


使 用 SparkContext 的 textFile 来 加 载 文件 ， 加 载 后 的 textFile， 其 组 成 元 素 为 文件 的 每 一 
行 记录 ， 元 素 类 型 为 String。 

注意 : 4 Spark 基于 Hadoop 的 HDFS 存储 系统 时 ， 由 于 HDFS 默认 使 用 的 Scheme 是 hdfs ， 因 此 ，“/ 
user/README. md" 等 同 于 hdfs 的 “fs. defaultFS + ‘/user/README. md’”, 在 本 集群 中 对 应 为 “hdfs:// 
wxx214:9000/user/ README. md" , 

Hadoop 集群 的 core — site. xml 文件 中 的 相关 配置 . 


< property > 

< name > fs. defaultFS </name > 

< value > hdfs://wxx214:9000 « /value > 

< description > The name of the default file system. A URI whose 
scheme and authority determine the FileSystem implementation. The 
uri s scheme determines the config property (fs. SCHEME. impl) naming 
the FileSystem implementation class. The ur s authority is used to 
determine the host, port etc. for afilesystem. < /description > 


« / property > 


该 信息 也 可 以 在 Hadoop 的 Web Interface (http: //namenode:50070) 页 面 上 找到 。 
3. 修改 日 志 等 级 ， 去 除 多 余 的 日 志 信 息 : 


import org. apache. log4j. | Level , Logger} 
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Logger. getLogger( " org. apache. spark" ). setLevel( Level. WARN) 
这 里 将 日 志 等 级 设置 为 Level. WARN， 即 只 输出 Level. WARN 或 更 高 级 别 的 日 志 信 息 。 
4. 使 用 take 函数 获取 textFile 的 前 n 个 元 素 ， 执 行 结果 如 下 : 


scala > textFile. take( 1) 
15/04/03 11:28:11 INFOmapred. FileInputFormat ; Total input paths to process ;1 
res] :Array[ String] = Array(# Apache Spark) 


take 函数 是 将 RDD 的 前 n 个 元 素 抽取 出 来 作为 Array 返回 。 它 会 先 扫描 第 一 个 分 区 的 元 
素 个 数 ， 并 用 这 个 数 评 估 获 取 n 个 数据 还 需要 扫描 的 分 区 个 数 。textFile. take (1) 获取 了 当 
前 第 一 个 元 素 ， 即 加 载 文件 的 第 一 行 : # Apache Spark, 

5. 使 用 first 方法 获取 textFile 的 第 一 个 元 素 ， 执 行 结果 如 下 : 


scala > textFile. first 
res2 :String = # Apache Spark 


RDD 的 first 方法 实际 上 是 调用 了 take(1) 方 法 ，textFile. first 获取 了 第 一 个 元 素 ， 即 加 载 
文件 的 第 一 行 : # Apache Spark。 
需要 注意 的 是 ，first 和 take 方法 的 返回 值 的 类 型 不 同 ，first 返回 String, take 返回 的 是 Array 
[String] 。 
6. 运用 filter 方法 指定 元 素 的 过 滤 条 件 ， 并 获取 过 滤 的 结果 ， 执 行 结 果 如 下 : 
scala » vallinesWithSpark = textFile. filter( line 2» line. contains( " Spark" ) ) 
linesWithSpark : org. apache. spark. rdd. RDD [ String] = MapPartitionsRDD [2] at filter at < console 
> :24 
RDD 的 filter 方法 是 对 RDD 中 的 数据 单元 进行 过 滤 。 如 果 数 据 单元 在 filter 方法 指定 的 
函数 值 执行 后 返回 tue， 则 当前 被 验证 的 RDD 元 素 会 被 过 滤 出 来 ， 最 后 构建 的 RDD 只 包含 
符合 过 滤 条 件 的 元 素 。 
其 中 ， 参 数 line 对 应 于 RDD 的 元 素 ， 也 就 是 textFile 加 载 的 文件 的 行 ，textFile. filter 
(line => line. contains( “ Spark” ) ) 表 示 过 滤 出 包含 了 “Spark” 字 符 串 的 每 一 行 。 
7. 运用 collect 方法 获取 RDD 的 内 容 ， 执 行 结果 如 下 : 


scala > linesWithSpark. collect 

res3 ; Array[ String] = Array(# Apache Spark , Spark is a fast and general cluster computing system for Big 
Data. It provides , rich set of higher - level tools including Spark SQL for SQL and structured , and Spark 
Streaming for stream processing. , You can find the latest Spark documentation, including a programming , # 
# Building Spark , Spark is built using [ Apache Maven | ( http: //maven. apache. org/). ,To build Spark 
and its example programs, run; , [ " Building Spark" | ( http: //spark. apache. org/docs/latest/building — 
spark. html). , The easiest way to start using Spark is through the Scala shell: ,Spark also comes with sev- 
eral sample programs in the’ examples directory. ," . /bin/run - example SparkPi" ," MASTER = 
spark ://host:7077 . /bin/run - example SparkPi" , Testing first requires [ building Spark ] (#bu. . . 


collect 方法 会 将 RDD 的 元 素 返 回 到 Driver 端 ， 放 到 一 个 数组 中 ， 需 要 注意 的 是 ， 如 果 
RDD 的 数据 量 太 大 的 话 ，collect 方法 会 消耗 很 大 的 内 存 。 


era 文本 数据 的 初步 统计 案例 实践 与 解析 


在 对 上 一 节 的 文本 数据 (Bl README. md 文件 的 数据 ) 进行 初步 的 ETL 操作 之 后 ， 就 
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可 以 开始 进行 数据 统计 、 挖 掘 等 操作 了 ， 这 里 主要 介绍 数据 的 一 些 统计 操作 ， 以 及 为 了 加 快 
统计 效率 而 使 用 的 持久 化 操作 。 
1. 使 用 count 方法 统计 textFile 的 元 素 个 数 ， 即 文件 行 数 ， 执 行 结果 如 下 : 


scala > textFile. count S 


res6 : Long =98 
可 以 看 到 文件 的 行 数 为 98。 
2. 获取 单词 个 数 最 多 的 行 的 单词 个 数 。 


scala > textFile. map( line => line. split(" " ). size). reduce( (a,b) 2» if (a >b) a else b) 
res4 : Int = 14 


其 中 : 

1) map 方法 是 针对 RDD 的 每 个 元 素 执行 map 函数 ， 并 返回 处 理 后 的 新 RDD, map 
(line => line. split ("") . size) 操作 是 对 每 个 元 素 按 空格 进行 split 后 ， 再 获取 split 得 到 的 
数组 的 长 度 ， 其 结果 就 是 将 RDD 的 元 素 转换 为 元 素 包 含 的 单词 的 个 数 。 

2) reduce 是 先 对 RDD 每 个 分 区 的 数据 进行 归并 操作 ， 最 终 对 每 个 分 区 数据 的 归并 结 
再 次 进行 归并 。reduce ( (a, b) =>if (a >b) a else b) 是 获取 map 后 RDD 元 素 的 最 大 值 。 
这 里 是 比较 每 行 包含 的 单词 个 数 。 
查看 map 后 每 行 数据 的 单词 个 数 ， 单 词 个 数 最 多 的 为 4 ， 执 行 结果 如 下 所 示 : 


scala > textFile. map( line => line. split(" " ). size). collect 
res5:Amay[ Int] = Array(3,1,14,12,11,12,10,6,1,1,1,1,3,1,10,6,3,8,1,3,1,6,8,1,8,1,13,10, 
2,1,4,1,12,1,5,1,8,1,8,1,4,1,11,1,5,0,10,1,6,1,3,1,11,11,1,6,1,6,1,12,12,11,13,14,3, 
1,7,1,13,1,3,1,10,4,1,5,1,7,4,1,6,1,13,11,13,1,7,4,12,10,4,12,1,1,2,1,6,12) 

改 用 Math 方法 获取 最 大 值 ， 执 行 结果 如 下 所 示 : 


scala > import java. lang. Math 

import java. lang. Math 

scala > textFile. map( line => line. split(" " ). size). reduce( (a,b) => Math. max(a,b) ) 
res6 :Int = 14 


Scala 编译 后 也 是 . class 文件 ,在 JVM 中 运行 ， 因 此 可 以 调用 同样 编译 成 . class 文件 的 
java 类 ， 即 可 以 使 用 已 有 的 java 类 库 ， 这 里 使 用 了 java. lang. Math 中 的 Math. max 方法 。 
3. 实现 WordCounts (单词 统计 ) ， 并 获取 统计 结果 ， 输 入 命令 ， 查 看 命令 结果 : 
scala > val wordCounts = textFile. flatMap (line = > line. split ( " ")).map ( word = > ( word, 1)) 
. reduceByKey( (a,b) =>a+b) 


wordCounts ; org. apache. Spark. rdd. RDD[ (String, Int) ] = ShuffledRDD[ 8] at reduceByKey at < con- 
sole > :25 


其 中 : 

1) flatMap(line => line. split(" ")), flatMap 操作 ， 相 当 于 先 将 元 素 map 一 个 数据 集 ， 然 后 把 
数据 集 fap， 即 扁平 化 处 理 。 案 例 中 ， 是 将 textFile 的 元 素 ， 即 输入 文件 的 每 一 行 ， 按 空格 (" ") 
进行 拆 分 ， 得 到 单词 数组 ， 最 后 将 数组 进行 扁平 化 后 textFile 的 元 素 变 为 单词 字符 串 。 

2) map 方法 在 这 里 是 将 RDD 的 每 个 元 素 转换 为 一 个 二 元 组 ， 二 元 组 包含 一 个 单词 和 初 


始 统计 值 1。 
3) reduceByKey 方法 和 reduce 方法 一 样 ， 只 是 针对 相同 Key 值 的 value 进行 归并 操作 。 


在 这 里 针对 相同 元 素 ， 
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即 相同 单词 进行 归并 〈 即 求 和 ) ， 最 后 得 出 单词 的 个 数 统计 值 。 


通过 collect 方法 查看 wordCounts 的 内 容 ， 执 行 结 果 如 下 : 


scala > wordCounts. collect 

res7:Array[ (String, Int) ] = Array((package,1),(this,1),(Because,1),(Python,2),(cluster ,1) , 
(its,1) ,([run,1) ,(general,2) , (YARN,,1),(have,1), (pre — built,1) , (locally. , 1) , (changed, 
1) , (locally ,2) , (sc. parallelize( 1,1) , (only ,1) ,(several,1) , ( This,2) , (basic, 1) , (first, 1) , (docu- 
mentation ,3 ) , (Configuration, 1) , (learning, ,1) , (graph,1) , (Hive,2) , ([ " Specifying, 1) , (" yam - 


client" , 1) , ( page | (http://spark. apache. org/documentation. html) , 1) , ([ params] . ,1) , ( applica- 
tion,1) , ( [ project, 2) , ( prefer, 1) , ( SparkPi,2) , ( < http://spark. apache. org/ > , 1) , (engine, 1) , 
( version, 1) , (file, 1) , (documentation, , 1) , (MASTER, 1), ( example, 3) , (are, 1) , (systems. ,1) , 
( params,1) , (scala > , 1) , ( provides, 1) , ( refer, 2) , (configure, 1 ) , ( Interactive, 2) , (distribution. , 
1),(can,6) , (build,3) , (when,1) , ( Apache,1),... 


4. 对 每 行 单词 个 数 求 topp ， 执 行 结果 如 下 : 


scala > textFile. 


map( line => line. split(" " ). size). top(3) 


res4 ; Array [| Int] = Array(14,14,13) 


这 里 将 textFile 的 每 条 记录 ， 即 文件 的 每 一 行 ，map 为 单词 个 数 ， 然 后 求 出 单词 个 数 排 


前 三 的 个 数值 。 


5. 测试 textFile 的 缓存 。 为 了 测试 缓存 时 间 的 变化 ， 修 改 日 志 等 级 进行 调试 ， 语 句 如 下 : 


Logger. getLogger( " org. apache. spark" ). setLevel( Level. INFO) 


测试 过 程 ， 先 执行 textFile. count 统计 元 素 个 数 ， 然 后 缓存 textFile， 并 用 collect 触发 ， 触 发 
后 再 次 执行 textFile. count 命令 ， 比 对 缓存 前 后 ， 元 素 个 数 统计 所 消耗 的 时 间 。 依 次 输入 命令 : 


scala > textFile. 
scala » textFile. 
scala » textFile. 


scala » textFile. 


其 中 : 


count 
cache 
collect 


count 


1) cache 方法 : 将 RDD 缓存 到 内 存 中 ， 即 persist ( StorageLevel. MEMORY. ONLY ) 的 缩 


写 ， 是 一 个 lazy 操作 
的 存储 等 级 ) 。 
2) collect FE: 


(一 旦 存储 等 级 被 改变 ， 必须 先 调用 unpersist 去 除 后 才能 重新 设置 新 


这 是 一 个 Action 操作 。 会 获取 RDD 的 全 部 元 素 ， 并 转换 为 Scala 


Array 返回 给 Driver Program, collect 方法 中 还 可 以 添加 一 个 偏 画 数 对 返回 的 数据 进行 预 
处 理 ， 处 理 得 到 的 类 型 可 以 和 RDD 的 元 素 类 型 不 同 。 通 常情 况 下 ， 在 RDD 数据 量 大 时 


应 避免 使 用 该 方法 , 
出 问题 。 
如 图 2. 12 Bras, 


避免 在 Driver Program 中 内 存 不 足以 装载 全 部 元 素 而 导致 的 内 存 溢 


缓存 前 ， 统 计时 间 为 0. 085439s， 缓 存 后 的 统计 时 间 为 0. 047926s。 
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scala- textFile.count 

15/04/03 11:41:38 INFO spark.Sparkcontext: starting job: count at <console>:26 

15/04/03 11:41:38 INFO scheduler.DAGScheduler: Got je 16 (count at «console»:26) with 2 output partiti 
15/04/03 11:41:38 INFO scheduler.DAGScheduler: Final stage: Stage 17(count at <console>:26) 


15/04/03 scheduler.DAGScheduler: Parents of final stage: List() 

15/04/03 scheduler.DAGscheduler: Missing parents: List() 

15/04/03 scheduler.DAGscheduler: submitting Stage 17 (/user/README.md MapPartitionsRDD[1] 
15/04/03 storage.MemoryStore: ensureFreeSpace(2640) called with curMem=281838, maxMem-277 
15/04/03 storage.MemoryStore: Block broadcast 18 stored as values in memory (estimated si 
15/04/03 storage.MemoryStore: ensureFreespace(1929) called with curMem=284478, maxMem-277 
15/04/03 storage.Memorystore: Block broadcast 18 pieceO0 stored as bytes in memory (estima 
15/04/03 storage.BlockManagerInfo: Added broadcast 18 piecen in memory on wison215:12601 
15/04/03 storage.BlockManagerMaster: Updated info of block broadcast 18 pieceO 

15/04/03 spark. SparkContext: Created broadcast 18 from broadcast at DAGSCheduler.scala:83 
15/04/03 scheduler.DAGscheduler: submitting 2 missing tasks from stage 17 (/user/README.m 
15/04/03 scheduler. TaskschedulerImp]: Adding task set 17.0 with 2 tasks 

15/04/03 scheduler.TasksetManager: Starting task 0.0 in stage 17.0 (TID 32, wison225, NOD 
15/04/03 scheduler.TasksetManager: starting task 1.0 in stage 17.0 (TID 33, wison215, NOD 
15/04/03 storage.BlockManagerInfo: Added broadcast 18 pieceO0 in memory on wison225:6016 ( 
15/04/03 storage.BlockManagerInfo: Added broadcast 18 pieceO in memory on wison215:15963 
15/04/03 scheduler.TasksetManager: Finished task 0.0 in stage 17.0 (TID 32) in 49 ms on w 
15/04/03 scheduler.TasksetManager: Finished task 1.0 in stage 17.0 (TID 33) in 64 ms on w 
15/04/03 scheduler.Taskschedulerimpl: Removed Taskset 17.0, whose tasks have all complete 
15/04/03 scheduler.DAGScheduler: stage 17 (count at <console>:26) finished in 0.065 s 
15/04/03 scheduler.DAGScheduler: Job 16 finished: count at <console>:26, took 0.085439 s 


res25: Long - 98 


scala» textFile.cache 
res26: textFile.type = /user/README.md MapPartitionsRDD[1] at textFile at «console»:21 


scala» textFile.collect 

15/04/03 11:41:46 INFO storage.BlockManager: Removing broadcast 17 

15/04/03 11:41:46 INFO storage.BlockManager: Removing block broadcast 17 pieceO 

15/04/03 11:41:46 INFO storage.MemoryStore: Block broadcast 17. pieceO of size 1936 droppe 
15/04/03 11:41:46 INFO storage.BlockManagerInfo: Removed broadcast 17 pieceO0 on wison215: 
15/04/03 11:41:46 INFO storage.BlockManagerMaster: Updated info of block broadcast 17 pie 


documentation.html), and [project wiki](https://cwiki.apache.org/confluence/display/SPARK)., This README 
scala> textFile. count 

15/04/03 11:41:50 INFO spark. SparkContext: Starting job: count at <console>:26 

15/04/03 11:41:50 INFO scheduler. DAGScheduler: Got jor 18 (count at «console»:26) with 2 output partitio 
15/04/03 11:41:50 INFO scheduler.DAGScheduler: Final stage: Stage 19(count at <console>:26) 

15/04/03 11:41:50 INFO scheduler.DAGscheduler: Parents of final stage: List() 

15/04/03 11:41:50 INFO scheduler.DAGScheduler: Missing parents: List() 

15/04/03 11:41:50 INFO scheduler.DAGScheduler: submitting stage 19 (/user/README.md MapPartitionsRDD[1] 
15/04/03 11:41:50 INFO storage.Memorystore: ensureFreespace(2640) called with curmem=272693, maxMem-2778 
15/04/03 11:41:50 INFO storage.MemoryStore: Block broadcast 20 stored as values in memory (estimated siz 
15/04/03 11:41:50 INFO storage.MemoryStore: ensureFreesSpace(1936) called with curMem-275333, maxMem-2778 
15/04/03 11:41:50 INFO storage.Memorystore: Block broadcast 20 pieceO stored as bytes in memory (estimat 
15/04/03 11:41:50 INFO storage.BlockManagerInfo: Added breaticast—20-preces in memory on wison215:12601 ( 
15/04/03 11:41:50 INFO storage.BlockManagerMaster: Updated info of block broadcast 20 pieceO 

15/04/03 11:41:50 INFO spark.sparkContext: Created broadcast 20 from broadcast at DAGScheduler.scala:839 
15/04/03 11:41:50 INFO scheduler.DAGScheduler: Submitting 2 missing tasks from stage 19 (/user/README. md 
15/04/03 11:41:50 INFO scheduler.Taskschedulerimpl: Adding task set 19.0 with 2 tasks 

15/04/03 11:41:50 INFO scheduler.TasksetManager: Starting task 0.0 in stage 19.0 (TID 36, wison223, PROC 
15/04/03 11:41:50 INFO scheduler.TasksetManager: Starting task 1.0 in stage 19.0 (TID 37, wison225, PROC 
15/04/03 11:41:50 INFO storage.BlockManagerinfo: Added broadcast. 20 piece0 in memory on wison223:31143 ( 
15/04/03 11:41:50 INFO storage.BlockManagerInfo: Added broadcast 20 pieceO0 in memory on wison225:6016 (s 
15/04/03 11:41:50 INFO scheduler.TasksetManager: Finished task 1.0 in stage 19.0 (TID 37) in 34 ms on wi 
15/04/03 11:41:50 INFO scheduler.TasksetManager: Finished task 0.0 in stage 19.0 (TID 36) in 38 ms on wi 
15/04/03 11:41:50 INFO scheduler.DAGScheduler: Stage 19 (count at <console>:26) finished in 0.038 s 
15/04/03 11:41:50 INFO scheduler.TaskschedulerImpl: Removed Taskset 19.0, whose tasks have all completed 
15/04/03 11:41:50 INFO scheduler.DAGScheduler: Job 18 finished: count at <console>:26, took 0.047926 s 
res28: Long = 98 


图 2.12 RDD 缓存 及 其 触发 过 程 的 日 志 截 氏 
对 RDD 进行 缓存 后 ， 可 以 极 大 提高 RDD 的 统计 效率 ,减少 多 次 对 RDD 统计 时 重新 计 
算 RDD 的 开销 。 


DOS 文本 数据 统计 结果 的 持久 化 案例 实践 与 解析 


在 对 文本 数据 进行 初步 的 ETL 操作 ， 以 及 对 一 些 指 标 信息 进行 统计 之 后 ， 通 常 需要 将 
统计 结果 持久 化 ， 以 便 用 于 界面 呈现 以 及 向 管理 层 提 供 决策 所 需 信息 。 
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1. 修改 日 志 等 级 ， 保 存 文件 ， 输 入 以 下 命令 


scala > Logger. getLogger( " org. apache. Spark" ). setLevel( Level. WARN) 


scala > wordCounts. saveAsTextFile( " /user/resultO" ) 


保存 为 文本 文件 ， 由 于 当前 是 基于 HDFS 的 文件 系统 ， 因 此 默认 使 用 的 是 HDFS 的 
scheme ， 会 保存 到 HDFS 系统 上 。 
使 用 hdfs 命令 查看 : 
[ harli@ wxx214 hadoop - 2. 6.0] $ ./bin/hdfs dfs — ls /user 


Found 8 items 


-rw-r--r-- harli supergroup 3629 2015 -03 - 26 10:36 /user/ README. md 
drwxr - xr - x — harli supergroup 0 2015 -04 -03 10:48 /user/harli 

drwxr - xr - x 一 harli supergroup 0 2015 -04 -01 13:26 /user/hive 

drwxr - xr - x — harli supergroup 0 2015 -03 -26 11:43 /user/objresultl 

drwxr - xr - x 一 harli supergroup 0 2015 -04 -03 11:48 /user/resultO 


查看 Web Interface (http://namenode:50070) 页 面 ， 文 件 已 经 保存 到 /user/result。 上 日 录 
下 ,保存 后 的 文件 系统 如 图 2. 13 所 示 。 


Hadoop Overview — Datanodes Snapshot Startup Progress | Utilities - 


Browse the file system 


Logs 
Browse Directory 
fuser/resultü Gol 
了 ermi ssion Owner Group Size Replication Block Size Hane 
-rw-r--r-- harli supergroup OB 3 128 MB SUCCESS 
lar T a E harli supergroup 1.91 KB 3 128 MB part-00000 
by ga Ei harli supergroup 1.68 KB 3 128 MB part-O0001 


图 2. 13 Hadoop 文件 系统 上 的 保存 结果 界面 


单 击 文件 后 可 打开 下 载 界面 ， 界 面包 含 的 文件 内 容 如 图 2. 14 所 示 。 


File information - part-00000 


Download 


Block information Block 0 v 


Block ID: 1073742031 


Block Fool ID: BP-157002854-192. 168.70. 214- 
1427336257692 


Generation Stamp: 1211 
Size: 1956 


Availability: 


* wison215 
* wison225 
* wisonZ23 


图 2. 14 Hadoop 文件 系统 的 文件 下 载 界面 
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2. 指定 scheme 保存 文件 ， 输 入 命令 
scala > wordCounts. saveAsTextFile( " hdfs://wxx214:9000/user/result00" ) 
使 用 hdfs 命令 查看 : 


[ harli@ wxx214 hadoop - 2. 6.0] $ . /bin/hdfs dfs — ls /user 


Found 9 items 


-rw-r--r-- 3harli supergroup 3629 2015 -03 - 26 10:36 /user/ README. md 
drwxr - xr - x — harli supergroup 0 2015 -04 -03 10:48 /user/harli 

drwxr - xr - x — harli supergroup 0 2015 -04 -01 13:26 /user/hive 

drwxr - xr - x — harli supergroup 0 2015 -03 -26 11:43 /user/objresult1 

drwxr - xr - x — harli supergroup 0 2015 -04 -03 11:48 /user/resultO 

drwxr - xr - x — harli supergroup 0 2015 -04 -03 11:52 /user/result00 


查看 Web Interface (http://namenode:50070) 页 面 ， 文 件 已 经 保存 到 /userresult00 目录 
下 ， 保 存 后 的 文件 系统 如 图 2. 15 所 示 。 


Hadoop Overview ^ Datanodes Snapshot Startup Progress Utilities - 


Browse the file system 


Logs 
Browse Directory 
fuser/result00 Gol 
Permission Owner Group Size Replication Block Size Hane 
TIN EE harli supergroup DB 3 128 MB _SUCCESS 
Sees harli supergroup 1.91 EB 3 128 ME par t-00000 
En E m harli supergroup 1.65 KB 3 128 MB part-00001 


Hadoop, 2014. 


图 2.15 Hadoop 文件 系统 上 的 保存 结果 界面 


2 RDD 的 Lineage 关系 的 案例 与 源码 解析 


RDD 作为 Spark 的 基本 计算 单元 ， 是 Spark 的 一 个 最 核心 的 抽象 概念 ， 可 以 通过 一 系列 
算 子 进行 操作 ， 包 括 Transformation 和 Action 两 种 算 子 操作 。 本 节 针 对 前 面 的 案例 进行 详细 
解析 ， 主 要 从 源码 、 界 面 监控 信息 等 方面 进行 详细 解析 。 

接 下 来 采用 Spark Shell 交互 式 工具 运行 Spark 应 用 程序 ， 应 用 程序 的 运行 方式 参见 章节 
2. 1Spark 应 用 程序 部 署 。 

在 此 先 介绍 一 些 代码 阅读 技巧 ， 常 用 的 一 些 代码 操作 技巧 包括 : 

1) 在 Shell 交互 界面 上 ， 可 以 通过 按 【TAB】 键 自动 补 全 代码 。 

2) IntellijIDEA 中 : 按 住 【CTRL】 键 ,同时 单 击 某 个 符号 (如 类 、 方 法 等 )， 可 以 跳 到 
该 符号 的 定义 ; 或 鼠标 定位 于 该 符号 ， 然 后 按 【F4】 键 或 【Ctrl +B】 组 合 键 ， 跳 转 到 该 符 
号 的 定义 ; 或 在 符号 处 单 击 右键 ,在 弹出 上 下 文 菜单 中 ， 选 择 Go To 一 Declaration， 如 
图 2. 16 所 示 。 
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aint far Snork fametianclite A Snowrb nmniowt ronr 


Copy Reference Ctrl+Alt+Shift+C — 
3l Paste Ctrl+V 
Paste from History... Ctrl+Shift+V 
Paste Simple Ctrl+Alt+Shift+V 
Column Selection Mode Alt+Shift+Insert 


Find Usages Alt+F7 ` 
Analyze 


Refactor , torAllocationClient { 


Folding + 
// The call € pe zs Jump to Navigation Bar Alt+Home 


private va 


class Sparkto 


enerate... Alt+Insert 


Uf TE true, Compile 'SparkContext.scala' Ctrl+Shift+F9 Implementation(s) Ctrl+Alt+B 


private va [2 Run Scala Console Ctrl+Shift+D Type Declaration Ctrl+Shift+B 
Super Method Ctrl+U 


config. get Local History b ; 
Test Ctrl+Shift+T 


Git + 
it the same time, mark this 


Compare with Clipboard 
File Encoding 


constructor 


2.16 IDEA 中 符号 声明 的 调整 


通常 在 IDE 中 阅读 源码 时 ， 可 以 通过 查看 菜单 、 右 键 的 上 下 文 菜单 等 信息 ,来 获取 比 
较 常 用 功能 的 快捷 键 。 
理解 RDD 的 Lineage 关系 的 案例 与 源码 解析 的 内 容 : 解析 RDD 中 与 Lineage 关系 相关 的 
三 个 组 成 部 分 。RDD 抽象 概念 对 Lineage 关系 的 天 然 支 持 ， 是 构建 Spark DAG 这 一 高 层 调度 
机 制 的 基石 。 参 考 章节 1.3RDD 的 编程 模型 ， 从 分 区 列表 、 计 算 每 个 分 片 的 函数 以 及 对 父 
RDD 的 依赖 列表 这 三 个 RDD 的 组 成 部 分 对 Lineage 关系 进行 解析 : 
1) compute; 计算 每 个 分 片 的 函数 。 
2) getPartitions; 分 区 列表 。 
3) getDependencies: 对 父 RDD 的 依赖 列表 。 
Lineage 关系 ， 即 血统 关系 ， 可 以 从 两 个 角度 进行 解析 ， 一 个 是 构建 一 个 RDD 的 数据 流 
的 血统 关系 ， 一 个 是 RDD 构建 的 算 子 流 的 血统 关系 。 
SparkContext 是 Spark 功能 的 主 入口 点 ， 命 名 为 sc， 在 接 下 来 的 案例 解析 中 直接 使 用 sc 
来 表示 。 
一 、TextFile 案例 与 解析 
案例 代码 : 
scala > val textFile = sc. textFile( " README. md" ) 
textFile:org. apache. spark. rdd. RDD [String] = README. md MapPartitionsRDD [21 ] at textFile at < 


console > :23 


scala > textFile. toDebugString 

15/04/03 11:59:15 INFOmapred. FileInputFormat ; Total input paths to process :1 
res49 : String = 

(2) README. mdMapPartitionsRDD[21 ] at textFile at < console > :23 [|] 

| README. mdHadoopRDD{ 20 | at textFile at < console > :23 [|] 


scala > textFile. dependencies 
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res51: Seq [ org. apache. spark. Dependency [ _] ] = List ( org. apache. spark. OneToOneDependency @ 
8ee9b7 ) 

scala > sc. defaultParallelism 

res32 : Int =4 

scala > textFile. partitions. size 

res53 ; Int =2 

scala > sc. getConf. getInt( " spark. default. parallism" ,0) 

res54 . Int =0 


代码 解析 如 下 

通过 SparkContext 的 textFile 接口 ， 从 外 部 存储 系统 加 载 数据 ， 构 建 RDD， 即 textFile。 
调用 toDebugString 查看 其 Lineage 的 关系 : 从 HadoopRDD 转换 为 MapPartitionsRDD 。 

获取 RDD 的 分 区 数 的 方法 有 两 种 ， 获 取 Spark 的 所 有 RDD 的 默认 分 区 数 的 方法 
sc. defaultParallelism 和 获取 Spark 的 具体 RDD 实例 的 分 区 数 的 方法 rdd. partitions. size, ， 如 
textFile. partitions. size ， 这 里 的 textFile 为 加 载 文件 数据 后 构建 的 RDD 实例 。 

这 里 使 用 sc. getConf. getInt (" spark. default. parallism" , 0) 来 获取 当前 设置 的 默认 分 区 
数 对 应 的 配置 属性 值 。 

二 、HadoopRDD、MapPartitionsRDD 源码 解析 

根据 Lineage 的 关系 从 HadoopRDD 转换 为 MapPartitionsRDD， 解 析 源 码 . 

从 主 入 口 点 SparkContext 的 源码 开始 解析 ， 打 开 IDEA, 使 用 【Ctrl +N】 组 合 键 ， 在 弹 
出 窗口 中 输入 SparkContext， 按 【Enter】 键 进入 SparkContext 源码 后 ， 查 看 textFile 源码 n 
图 2. 17 所 示 。 
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EH [Ctrl+F] 组合 键 ,在 SparkContext 源码 中 查找 textFile 方法 ， 找 到 的 textFile 方法 
的 源码 如 下 所 示 ， 


/** 
* Read a text file from HDFS ,a local file system (available on all nodes) ,or any 
* Hadoop - supported file system URI, and return it as an RDD of Strings. 
*/ 
def textFile( path ; String , minPartitions ; Int = defaultMinPartitions) : RDD[ String] = | 
assertNotStopped( ) 
hadoopFile( path, classOf[ TextInputFormat | , classOf[ LongWritable | , classOf[ Text | , 
minPartitions). map( pair => pair. 2. toString). setName( path) 


1 
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根据 Lineage 的 关系 : 从 HadoopRDD 转换 为 MapPartitionsRDD ， 首 先 解析 HadoopRDD, 
按 住 【Ctrl】 键 ， 单 击 HadoopRDD 类 名 ， 进 入 HadoopRDD 的 源码 ， 进 入 的 源码 如 下 所 示 : 


/ ** Get an RDD for aHadoop file with an arbitrary InputFormat 
* 
''' Note?" Because Hadoop s RecordReader class re — uses the same Writable object for each 
record , directly caching the returned RDD or directly passing it to an aggregation or shuffle 


operation will create many references to the same object. 


copy them using a map function. 
/ 
def hadoopFile[ K, V] ( 
path : String, 


* 
* 
* 
* If you plan to directly cache, sort, or aggregate Hadoop writable objects , you should first 
* 
* 


inputFormatClass;Class[ _ < :InputFormat| K,V] ], 
keyClass;Class[ K ] , 
valueClass ; Class| V | , 
minPartitions ; Int = defaultMinPartitions 
):RDD[(K,V) ] =| 
assertNotStopped( ) 
// A Hadoop configuration can be about 10 KB, which is pretty big ,so broadcast it. 
val confBroadcast = broadcast ( new SerializableWritable ( hadoopConfiguration ) ) 
val setInputPathsFunc = ( jobConf; JobConf) => FileInputFormat. setInputPaths ( jobConf, path ) 
new HadoopRDD( 
this, 
confBroadcast , 
Some( setInputPathsFunc ) , 
inputFormatClass , 
keyClass, 
valueClass , 
minPartitions ). setName( path) 


| 


继续 查看 HadoopRDD 类 ， 按 住 【Ctl】 键 ， 单 击 HadoopRDD 类 名 ， 进 入 HadoopRDD 的 
源码 ， 如 下 所 示 ， 在 HadoopRDD 的 源码 中 可 以 看 到 ， 对 应 HadoopRDD 的 分 区 类 为 Hadoop- 
Partition. (根据 类 的 名 字 ， 以 及 getPartitions 方法 中 构建 的 分 区 的 类 型 ) ， 这 是 getPartitions 方 
法 中 需要 构建 的 分 区 类 型 . 
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@ DeveloperApi 
class HadoopRDD[ K, V ] ( 
sc :SparkContext , 
broadcastedConf ; Broadcast [ SerializableWritable[ Configuration | ] , 
initLocalJobConfFuncOpt : Option[ JobConf => Unit ] , S 
inputFormatClass :Class| _ < ;InputFormat| K, V] ], 
keyClass;Class[ K], 
valueClass ; Class| V ] , 
minPartitions ; Int) 


extends RDD[ (K,V) | (sc, Nil) with Logging | 


通过 deps 成 员 查 看 HadoopRDD 的 父 依 赖 : 在 HadoopRDD 的 主 构造 函数 中 ， 我 们 可 以 
看 到 其 依赖 的 父 RDD (EIKI dep WA) X Nil, Bll HadoopRDD 的 父 依 赖 RDD 为 空 ， 这 是 
因为 它 是 从 外 部 数据 加 载 的 ， 而 不 是 从 其 他 RDD 转换 得 到 的 。 

继续 查看 重 载 的 getPartitions 方法 ， 解 析 HadoopRDD 是 如 何 记 录 各 个 分 区 的 数据 来 源 
信息 : 


override defgetPartitions ; Array[ Partition] = | 

val jobConf = getJobConf( ) 

// add the credentials here as this can be called before SparkContext initialized 
SparkHadoopUtil. get. addCredentials ( jobConf) 

val inputFormat = getInputFormat( jobConf) 

if ( inputFormat. isInstanceOf[ Configurable ] ) | 
inputFormat. asInstanceOf[ Configurable |. setConf( jobConf) 

| 

val inputSplits = inputFormat. getSplits( jobConf , minPartitions ) 

val array = new Array[ Partition | ( inputSplits. size ) 

for (i < -0 until inputSplits. size) | 

array(i) = new HadoopPartition( id, i , inputSplits( i) ) 
| 
array 
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其 中 ,构建 HadoopRDD 分 区 时 传人 的 minPartitions 参数 (参数 表示 最 小 分 区 个 数 ) 会 
作为 输入 文件 split 的 个 数 的 参考 值 。 可 以 看 到 在 代码 中 使 用 inputSplits 构建 出 〈 即 new 出 
HadoopRDD 的 实例 ) HadoopRDD 的 全 部 分 区 。 

到 这 一 步 ， 可 以 得 出 HadoopRDD 的 分 区 HadoopParition 与 Hadoop 的 InputFormat 的 Split 
一 一 对 应 ， 即 HadoopRDD 各 个 分 区 的 数据 来 源 对 应 于 InputFormat 指定 的 Split， 通 常 对 应 于 
Hadoop 文件 的 分 块 。 

继续 解析 Hadoop 的 compute 方法 ， 该 方法 指定 对 分 区 的 数据 源 的 读 取 方式 ， 并 没有 真 
正 开始 读 取 ， 在 Action 触发 之 后 ， 调 用 该 compute 方法 获取 Iterator 时 才 会 开始 读 取 数据 。 


override def compute(theSplit: Partition , context :TaskContext) : Interruptiblelterator[ (K,V) ] = | 
val iter = new Nextlterator[ (K,V) ] | 
val split = theSplit. asInstanceOf[ HadoopPartition | 
logInfo( " Input split;" + split. inputSplit) 
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val jobConf = getJobConf( ) 
val inputMetrics = context. taskMetrics 
. getInputMetricsForReadMethod ( DataReadMethod. Hadoop) 
// Find a function that will return the FileSystem bytes read by this thread. Do this before 
// creating RecordReader , because RecordReader s constructor might read some bytes 
val bytesReadCallback = inputMetrics. bytesReadCallback. orElse | 
split. inputSplit. value match | 
case ;FileSplit | | : CombineFileSplit => 
SparkHadoopUtil. get. getFSBytesReadOnThreadCallback ( ) 
case _ => None 
| 


| 
inputMetrics. setBytesReadCallback ( bytesReadCallback ) 


var reader: RecordReader[ K, V ] = null 
val inputFormat = getInputFormat ( jobConf) 
HadoopRDD. addLocalConfiguration ( new SimpleDateFormat ( " yyyyMMddHHmm " ) . format ( create- 
Time), 
context. stageld , theSplit. index , context. attemptNumber , jobConf) 
reader = inputFormat. getRecordReader( split. inputSplit. value , jobConf, Reporter. NULL) 
// Register an on — task — completion callback to close the input stream. 
context. addTaskCompletionListener| context => closelfNeeded( ) | 
val key:K = reader. createKey( ) 
val value; V = reader. createValue( ) 
override def getNext() = | 
try | 
finished = ! reader. next( key , value) 
} catch | 
case eof; EOFException => 
finished - true 
| 
if (! finished) | 
inputMetrics. incRecordsRead( 1) 


| 


(key, value) 


| 


override def close( ) | 
try | 
reader. close( ) 
if (bytesReadCallback. isDefined) | 
inputMetrics. updateBytesRead( ) 
| else if (split. inputSplit. value. isInstanceOf[ FileSplit] | | 
split. inputSplit. value. isInstanceOf[ CombineFileSplit]) | 
// M we can t get the bytes read from the FS stats ,fall back to the split size, 
// which may be inaccurate. 
try | 
inputMetrics. incBytesRead( split. inputSplit. value. getLength ) 
} catch | 
case e;java. io. IOException => 


logWarning( " Unable to get input size to set InputMetrics for task" ,e) 
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| 
} catch | 


case e; Exception => | 


if (! Utils. inShutdown( ) ) | © 


logWarning( " Exception in RecordReader. close( )" ,e) 


new Interruptiblelterator[ ( K, V) | ( context, iter) 


1 
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在 代码 中 ， 构 建 分 区 数据 的 Iterator 时 ， 使 用 RecordReader 来 读 取 当 前 Split 的 数据 。 至 
此 ，HadoopRDD 的 分 区 构建 和 分 区 计算 都 已 经 解析 完成 。 继 续 MapPartitionsRDD 源码 的 解 
析 ， 对 应 MapPartitionsRDD 源码 的 入 口 点 如 下 : 


/** 
* Read a text file from HDFS ,a local file system (available on all nodes) ,or any 
* Hadoop - supported file system URI, and return it as an RDD of Strings. 
*/ 
def textFile( path ; String , minPartitions ; Int = defaultMinPartitions) : RDD[ String] = | 
assertNotStopped( ) 
hadoopFile( path, classOf[ TextInputFormat | , classOf[ LongWritable | , classOf[ Text | , 
minPartitions). map( pair => pair. 2. toString). setName( path) 


1 
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在 textFile 方法 中 通过 map 方法 将 HadoopRDD 再 次 转换 为 MapPartitionsRDD 。 查 看 map 
方法 的 源码 ， 可 以 看 到 HadoopRDD 被 转换 为 MapPartitionsRDD : 


/ok 
* Return a new RDD by applying a function to all elements of this RDD. 
*/ 
def map[ U:ClassTag | (f; T => U)  RDD[U] = } 
val cleanF = sc. clean(f) 
new MapPartitionsRDD[ U, T] (this, ( context, pid, iter) => iter. map( cleanF) ) 
} 


其 中 ,， 传 入 的 参数 f: T=>U 被 作用 到 iter Eo 
按 [Cul] ££, Hi MapPartitionsRDD, ， 进 入 MapPartitionsRDD 源码 . 


private[ spark | classMapPartitionsRDD[ U ; ClassTag, T: ClassTag | ( 
prev: RDD[ T] , 
f; ( TaskContext, Int ,Iterator[ T] ) => Iterator[ U], // (TaskContext, partition index, iterator) 
preservesPartitioning ; Boolean = false ) 
extends RDD[ U ] (prev) | 
override val partitioner = if ( preservesPartitioning) firstParent| T ]. partitioner else None 
override def getPartitions ; Array[ Partition ] = firstParent[ T]. partitions 


override def compute( split; Partition , context; TaskContext) = 
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f( context , split. index , firstParent[ T ]. iterator( split , context) ) 


| 


同样 ， 通 过 MapPartitionsRDD 主 构造 函数 可 以 得 到 依赖 的 父 RDD ， 当 前 传人 的 RDD 为 
HadoopRDD, 

查看 分 区 方法 getPartitions 源码 ， 解 析 各 个 分 区 的 数据 来 源 : firstParent 为 传人 的 父 
RDD getPartitions 记录 了 MapPartitionsRDD 分 区 的 数据 从 依赖 的 父 RDD 分 区 中 获取 的 关系 。 

查看 重 载 的 compute 方法 : 记录 对 分 区 数据 来 源 的 操作 ，MapPartitionsRDD 对 父 RDD 分 
区 的 执行 传人 的 上 操作 。 
通过 以 上 的 解析 ， 可 以 得 到 从 外 部 存储 系统 的 数据 集 到 MapPartitionsRDD 的 整个 Line- 
age 的 关系 如 图 2. 18 所 示 。 


Transformation Transformation Action 
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-------- = 分 区 对 应 的 数据 来 源 
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图 2. 18 Lineage 数据 流 与 操作 算 子 流 图 


上 图 对 应 了 前 面 的 构建 出 MapPartitionsRDD 的 整个 Lineage 关系 的 过 程 ， 从 该 图 中 可 以 
解析 出 通用 的 Lineage 关系 ， 具体 从 Lineage 的 数据 流 和 人 处理 流 两 个 角度 进行 解析 ， 即 RDD 
的 血统 关系 ,记录 了 构建 RDD 时 ， 各 个 点 上 的 数据 的 流动 关系 ， 以 及 数据 从 上 一 个 点 到 下 
一 个 点 流动 时 ,经 过 了 什么 样 的 处 理 ， 对 应 的 两 个 关系 图 如 下 : 

1) 数据 流 关 系 图 : 每 一 个 RDD 记录 了 内 部 各 个 分 区 的 数据 来 源 ， 数 据 来 源 可 以 是 外 部 
存储 系统 ， 也 可 以 是 其 他 依赖 的 父 RDDs， 通 过 上 图 中 的 分 区 对 应 的 数据 来 源 的 虚线 箭头 ， 
可 以 看 到 Block 数据 和 Partition 数据 之 间 的 数据 流 关系 。 

2) 处 理 流 关系 图 : 当 该 RDD 作为 其 他 RDD 的 数据 来 源 ， 或 作为 外 部 存储 系统 的 数据 
来 源 时 ， 该 RDD 对 各 个 分 区 数据 的 处 理 ， 通 过 上 图 中 的 分 区 数据 上 的 算 子 的 虚线 箭头 ， 可 
以 看 到 Block 数据 和 Partition 数据 之 间 在 数据 流动 时 ， 在 流动 数据 上 进行 的 算 子 操作 ， 即 对 
这 些 流动 数据 的 处 理 。 
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整个 Lineage 记录 了 数据 流 关 系 和 处 理 流 关 系 ， 仅 仅 在 Action 操作 时 ， 才 会 将 记录 的 关 
系 提 交 到 Job 上 ， 真 正 执行 起 来 。 

三 、ReduceByKey 的 案例 与 源码 解析 

MapPartitionsRDD 是 一 个 窄 依赖， 为 了 进一步 解析 Lineage 机 制 中 的 宽 依 赖 ， 基 于 redu- S 
ceByKey 转换 操作 来 解析 如 何 形成 ShuffledRDD 。 

查看 reduceByKey 的 lineage 关系 图 : 


scala > wordCounts. toDebugString 
res4 :String = 
(1)ShuffledRDD[4] at reduceByKey at < console > :24 [ Memory Deserialized 1x Replicated ] 
+ — (1) MapPartitionsRDD[3] at map at < console > :24 | Memory Deserialized 1x Replicated | 
| MapPartitionsRDD[2 ] at flatMap at < console > :24 [ Memory Deserialized 1x Replicated | 
| /README. mdMapPartitionsRDD[ 1 ] at textFile at < console > :21 [ Memory Deserialized 1x 
Replicated ] 
| /README. mdHadoopRDD[ 0 ] at textFile at < console > :21 | Memory Deserialized 1x Replica- 
ted | 
其 中 ，[ Memory Deserialized 1x Replicated ] 是 该 RDD 的 缓存 级 别 信息 ， 在 调用 了 cache 
等 持久 化 操作 后 就 会 出 现 该 信息 。 
MapPartitionsRDD 已 经 解析 过 ， 下 面 解析 ShuftledRDD。ShuffledRDD 源码 如 下 : 


@ DeveloperApi 
class ShuffledRDD[ K, V, C]( 
@ transient var prev; RDD[_ < ; Produc2[ K, V] ], 
part ; Partitioner ) 
extends RDD[ (K,C) ] ( prev. context, Nil) | 
private var serializer ; Option[ Serializer] = None 
private var keyOrdering : Option[ Ordering[ K] ] = None 
private var aggregator; Option[ Aggregator[ K, V, C] ] = None 
private var mapSideCombine ; Boolean = false 


从 源码 可 知 ，ShuffledRDD 的 分 区 类 型 为 ShuffledRDDPartition。 从 ShuffledRDD 的 主 构造 
函数 可 知 ， 其 父 依赖 为 传人 的 MapPartitionsRDD。 
对 应 RDD 的 三 个 主要 方法 ， 源 码 如 下 : 


override defgetDependencies : Seq[ Dependency[ _] ] = | 
List( new ShuffleDependency ( prev, part , serializer , keyOrdering , aggregator , mapSideCombine) ) 
| 
override val partitioner 2 Some( part ) 
override def getPartitions : Array [ Partition] = | 
Array. tabulate[ Partition | ( part. numPartitions) (i => new ShuffledRDDPartition( i) ) 
| 
override def compute( split ; Partition , context:TaskContext) : Iterator[ (K,C) ] = | 
val dep = dependencies. head. asInstanceOf[ ShuffleDependency[K,V,C]] 
SparkEnv. get. shuffleManager. getReader( dep. shuffleHandle , split. index, split. index + 1 , context ) 
. read( ) 
. asInstanceOf| Iterator[ (K,C) ] ] 
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在 getDependencies 方法 中 ， 将 父 依 赖 RDD 封装 到 了 ShuffleDependency "P, Æ DAG 调度 
It, DAG 是 根据 Shuffle 来 划分 Stage 的 ， 而 是 否 为 Shuffle， 则 是 通过 判断 RDD 对 父 依赖 的 
依赖 类 型 是 否 为 ShuffleDependency。 

查看 ShuffleDependency 的 源码 : 


@ DeveloperApi 
class ShuffleDependency[ K, V,C]( 
Q transient _rdd:RDD[_ < :ProducQ[ K,V]], 
val partitioner Partitioner , 
val serializer; Option[ Serializer] = None, 
val keyOrdering : Option[ Ordering[ K | ] = None, 
val aggregator: Option| Aggregator[ K, V, C] ] = None, 
val mapSideCombine ; Boolean = false) 
extends Dependency | Product2[ K,V]] | 
override def rdd =_rdd. asInstanceOf[ RDD[ Product2| K,V] | ] 
val shuffleId :Int = | rdd. context. newShuffleId( ) 
val shuffleHandle ; ShuffleHandle = _rdd. context. env. shuffleManager. registerShuffle ( 
shuffleld, rdd. partitions. size , this ) 
_rdd. sparkContext. cleaner. foreach( | . registerShuffleForCleanup( this ) ) 


} 

可 以 看 到 ， 每 个 ShuffleDependency 分 配 了 SparkContext 中 全 局 唯一 的 ID {E shuffledId, 
可 以 通过 这 唯一 的 标识 来 找到 Shuffle 数据 ;同时 ， 在 构造 ShuffleDependeney Hf, [+] Shuffle- 
Manager 注册 了 一 个 ShuffleHandle， 它 负责 计算 过 程 中 ，Shuffle 过 程 的 读 写 操作 。 

查看 gePartitions 方法 的 源码 ， 可 以 看 到 该 方法 只 是 根据 分 区 右 part， 构 建 了 Shuffle- 
dRDD 的 各 个 分 区 ， 记 录 了 数据 来 源 ; 查看 compute 方法 ,该 方法 中 使 用 了 之 前 在 ShuffleMa- 
nager 注册 过 的 ShuffleHandle， 用 ShuffleHandle 的 Reader 来 实际 获取 数据 。 

这 部 分 可 以 参考 下 之 前 对 HadoopRDD 的 compute (方法 名 ) ， 都 是 使 用 某 种 Reader ( 读 
取 数 据 的 类 名 ) 来 获取 数据 ， 并 没有 对 数据 做 处 理 。 

下 面 通过 DAG, ShuffledRDD 的 简单 执行 图 ， 来 加 深 解 析 。 执 行 流程 如 图 2. 19 所 示 。 


ShuffledRDD 


Partition-1 


Partition-1 


Partition-2 


Partition-n 


ShuffledHandler- 
Reader 


图 2. 19 Stage 划分 以 及 父子 RDD 数据 流 图 
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由 上 图 可 以 看 到 ， 当 DAG AEFI Shuffle 依赖 时 ， 会 切 分 Stage, Stage 前 的 RDD 分 区 数据 
会 通过 ShuffledDependency 的 shuffleld 作为 Shuffle 的 唯一 标识 ， 利 用 ShuffleHander 的 Writer 
( 写 数据 的 类 名 ) 写 数据 。Stage 的 RDD 在 读 取 各 个 分 区 数据 时 ，compute 方法 使 用 Shuffle- 
Hander 的 Reader， 根 据 shuffleld 去 读 取 数据 。 
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可 以 使 用 persist 方法 和 cache 方法 将 任意 RDD 缓存 到 内 存 或 磁盘 、Tachyon 文件 系统 
中 ; 其 中 ，cache 方法 是 persist 方法 使 用 MEMORY_ONLY 存储 级 别 的 快捷 方式 。 

RDD 对 应 的 缓存 是 容错 的 ， 如 果 一 个 RDD 分 片 丢 失 ， 可 以 通过 构建 它 的 Transformation 
自动 重 构 。 

这 一 节 详 细 描述 了 可 用 的 存储 级 别 及 其 含义 ， 并 对 使 用 默认 存储 级 别 的 cache 方法 进行 
详细 解析 ; 同时 ， 以 MEMORY_AND_DISK 存储 级 别 为 例 ， 扩 展 persist 方法 的 应 用 及 不 同 组 
存 特点 ， 包 括 缓存 的 lazy 特性 、 内 存 无 法 缓存 时 的 处 理 方法 等 ， 解析 过 程 中 对 比 了 MEMO- 
RY_ONLY 与 MEMORY_AND_DISK 这 两 个 等 级 的 缓存 结果 的 差异 点 。 

具体 操作 步骤 如 下 : 

一 、 小 文件 缓存 解析 

这 里 的 小 文件 的 是 指 该 文件 的 数据 大 小 在 当前 内 存 中 可 以 全 部 装载 。 

1， 加 载 文 件 ， 输 入 命令 . 


vallinesWithSpark = textFile. filter( line => line. contains( " Spark" ) ) 
2. 缓存 RDD 到 内 存 中 ， 输 入 命令 : 
linesWithSpark. cache( ) 


查看 Web Interface 界面 (http: //driverhost:4040) 的 Storage 部 分 ， 真 正 缓存 之 前 的 内 存 
言 息 界面 如 图 2. 20 所 示 。 


Spak TT Jobs Stages | Storage | Environment Executors Spark shell application UI 
Storage 
RDD Name Storage Level Cached Partitions Fraction Cached Size in Memory Size in Tachyon Size on Disk 


Kk 2.20 Driver Program 中 缓存 RDD 之 前 的 Storage 界面 


可 以 看 到 执行 cache 后 ， 并 不 会 马上 进行 缓存 。 
3. 用 Action 操作 触发 缓存 ， 输入 count 命令 ， 触 发 前 面 的 cache 的 执行 。 


scala > linesWithSpark. count( ) 

15/04/25 11:18:30 INFOSparkContext :Starting job :count at < console > :27 

15/04/25 11:18:30 INFODAGScheduler: Got job 5 (count at < console > :27) with 1 output partitions 
( allowLocal = false ) 

15/04/25 11:18:30 INFODAGScheduler; Final stage ; Stage 5( count at < console > :27) 

15/04/25 11:18:30 INFODAGScheduler ; Parents of final stage ; List( ) 

15/04/25 11:18:30 INFODAGScheduler ; Missing parents ; List ( ) 


e 
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15/04/25 11:18:30 INFODAGScheduler: Submitting Stage 5 ( MapPartitionsRDD [5 ] at filter at < con- 
sole > :24) , which has no missing parents 

15/04/25 11:18:30 INFOSparkContext : Created broadcast 6 from broadcast at DAGScheduler. scala: 839 
15/04/25 11:18:30 INFODAGScheduler; Submitting 1 missing tasks from Stage 5 ( MapPartitionsRDD 
[5] at filter at. « console » :24) 

15/04/25 11:18:30 INFOTaskSchedulerlmpl : Adding task set 5. 0 with 1 tasks 

15/04/25 11:18:30 INFOTaskSetManager; Starting task 0.0 in stage 5.0 (TID 5, localhost, ANY , 1295 
bytes ) 
15/04/25 11:18:30 INFO Executor; Running task 0. 0 in stage 5.0 (TID 5) 

15/04/25 11:18:30 INFOCacheManager ; Partition rdd 5. 0 not found , computing it 

15/04/25 11:18:30 INFOHadoopRDD : Input split; hdfs ;//cluster04:9000/ README. md:0 + 3629 
15/04/25 11:18:30 INFO Executor; Finished task 0. 0 in stage 5.0 (TID 5). 2399 bytes result sent 
to driver 
15/04/25 11:18:30 INFODAGScheduler:Stage 5 (count at < console > :27) finished in 0. 022s 
15/04/25 11:18:30 INFODAGScheduler:Job 5 finished:count at < console > :27 ,took 0. 032341s 
res16: Long = 19 


查看 Web Interface 界面 (http: //driverhost:4040) 的 Storage 部 分 ， 触 发 并 缓存 之 后 的 内 
存 信 息 如 图 2. 21 所 示 。 


Spak " Jobs Stages | Storage | Environment Executors Spark shell application Ul 
Storage 
RDD Name Storage Level CachedPartitions Fraction Cached Size in Memory Size in Tachyon Size on Disk 
2 Memory Deserialized 1x Replicated 2 100% 3.3KB 00B 00B 


图 2.21 Driver Program 中 缓存 RDD 后 的 Storage 界面 


可 以 看 到 ， 全 部 分 区 都 已 经 绥 存 到 Memory 中 。 
4. 执行 unpersist TE, RET o 


linesWithSpark. unpersist 
执行 过 程 如 下 : 


scala > linesWithSpark. unpersist( ) 
15/04/25 11:19:39 INFOMapPartitionsRDD :Removing RDD 5 from persistence list 
res17 ; linesWithSpark. type = MapPartitionsRDD[5 | at filter at < console > :24 


查看 Web Interface 界面 (http: //driverhost: 4040) 的 Storage 部 分 ，eager 型 的 unpersist 操 
作 后 的 内 存 信 息 如 图 2. 22 所 示 。 


Spark: ja Jobs Stages | Storage ^ Environment Executors Spark shell application Ul 
Storage 
RDD Name Storage Level Cached Partitions Fraction Cached Size in Memory Size in Tachyon Size on Disk 


图 2.22 Driver Program 中 unpersistrdd 后 的 Storage 界面 


不 同 于 cache 的 lazy 特性 ，unpersist 是 个 eager 操作 ， 执 行 后 ，Web Interface 界面 上 显示 
的 内 存 马上 被 释放 了 。 
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二 、 大 文件 缓存 解析 

测试 的 大 数据 量 的 文件 缓存 到 默认 存储 级 别 ( Memory) 。 当 文件 数据 量 比较 小 时 ， 全 部 
缓存 到 了 内 存 中 。 当 大 数据 量 的 文件 缓存 时 ， 在 内 存 不 能 完全 装载 的 情况 下 ， 部 分 分 区 数据 
会 被 丢弃 ， 可 以 通过 下 面 步 又 进行 验证 。 © 
L 查看 文件 大 小 ,文件 有 918MB， 使 用 du -m 目标 文件 来 查看 。 


$ su -m /xdr wuhan 2020150311. csv 
918. /xdr. wuhan. 2020150311. csv 


2. 重新 加 载 大 数据 量 的 文件 ， 查 看 RDD 分 区 数 。 


scala > val bigText = sc. textFile( " /home/harli/cluster. 13, 241/data/xdr. wuhan, 2020150311. csv" ) 


bigText; org. apache. spark. rdd. RDD [ String ] =/home/harli/cluster _ 13 _ 241/data/xdr _ wuhan _ 
2020150311. csv MapPartitionsRDD[ 11 ] at textFile at < console > :21 


scala » bigText. partitions. size 


15/03/25 15:3:57 INFO FileInputFormat ; Total inputpaths to process :1 
res32 : Int - 29 


可 以 看 到 ，bigText. partitions. size 返回 29, ， 也 就 是 当前 分 区 数 为 29。 
3. 使 用 默认 存储 级 别 进行 cache。 


查看 Web Interface 界面 ( http://driverhost: 4040). 的 Storage 部 分 ， 使 用 默认 存储 级 别 ， 
在 真正 缓存 之 前 的 内 存 信 息 如 图 2. 23 所 示 。 


scala > bigText. cache 


res33 : bigText. type = /home/harli/cluster 13. 241/data/xdr. wuhan, 2020150311. csv MapPartitionsRDD 
[11] at textFile at « console > :21 


Spa 130 Jobs Stages Storage Environment Executors Spark shell application UI 
Storage 
RDD Name Storage Level Cached Partitions Fraction Cached Size in Memory Size in Tachyon Size on Disk 
2 Memory Deserialized 1x Replicated 2 100% 3.3KB 0.0B 0.0B 
CHANGES txt Memory Deserialized 1x Replicated 2 100% 758.4KB 00B 0.08 


图 2. 23 Driver Program 中 缓存 rdd 前 的 Storage 界面 


4. 用 take 的 Action 操作 触发 缓存 ， 语 句 如 下 所 示 。 
bigText. take( 1) 
查看 Web Interface 界面 (http://driverhost:4040) 的 Storage 部 分 ,使 用 默认 存储 级 别 ， 
在 真正 缓存 之 后 的 内 存 信 息 如 图 2. 24 所 示 。 其 中 driverhost 为 应 用 程序 启动 的 节点 。 


此 时 ， 缓 存 分 区 数 为 1、 分 区 总 数 为 29 、 缺 失 分 区 数 为 283。 其 中 ， 缺 失 的 分 区 数 在 需 
要 使 用 时 会 重新 计算 。 


5. 用 count 的 Action 操作 触发 缓存 ， 语 句 如 下 所 示 。 


bigText. count 


查看 输出 日 志 信 息 ， 由 于 当前 文件 的 大 小 超过 了 内 存 可 以 装载 的 最 大 值 ， 在 缓存 过 程 


Jabs Stages 


Sport 150 


大 数据 实例 开发 教程 


Siorage Environment Executors Spark shell application Ul 


Storage 

RDD Name Storage Level CachedPartitions Fraction Cached Size in Memory Size in Tachyon Size on Disk 

2 Memory Deserialized 1x Replicated 2 100% 3.3KB 0.0B 00B 

CHANGES txt Memory Deserialized 1x Replioated 2 100% 758.4KB 00B 00B 
Ihome/harli/cluster 13 241/data/xdr wuhan 2020150311.csv Memory Deserialized 1x Replicated 1 396 69.5 MB 00B DOB 

图 2.24 Driver Program 中 take 方式 触发 缓存 RDD 后 的 Storage 界面 
S NTA AS 含 
中 ， 我 们 会 在 日 志 中 看 到 内 存 空 HIA JÉBIRE SS Has, 警告 日 志 信息 会 “Not enough 


space to cache rdd_ ... in boo id 


”这 些 内 容 。 即 ， 当 可 用 的 缓存 空间 不 足以 装载 RDD 的 

ne 就 会 出 现 该 日 志 信 言 息 ， 对 应 的 ， 此 时 RDD 可 能 仅仅 缓存 了 部 分 的 分 区 ， 如 果 
指定 仅 在 内 存 中 缓冲 的 话 ， 其 他 分 区 将 不 会 缓存 ， 在 下 次 使 用 时 会 重新 计算 。 

查看 Web Interface 界面 (http: //driverhost:4040) 的 Storage 部 分 ， 内 存 不 足以 装载 整个 


RDD 时 ， 仅 缓存 部 分 分 区 数据 时 的 内 存 信 息 如 图 2. 25 所 示 。 
Spak «so 


Jobs Stages Storage Environment Executors Spark shell application UI 
Storage 
RDD Name Storage Level Cached Partitions Fraction Cached Size in Memory Size in Tachyon Size on Disk 
Ihome/harlicluster 13 241/date/xdr wuhan 202015031 1.csv Memory Deserialized 1x Replicated 3 1096 180.9 MB 0.08 00B 
2 Memory Deserialized 1x Replicated 2 100% 3.3KB 0.08 0.08 
CHANGES bt Memory Deserialized 1x Replicated 2 100% 758.4 KB DOB 00B 


图 2. 25 Driver Program 中 部 分 缓存 RDD 后 的 Storage 界面 
三 、 修 改 存储 级 别 ， 测 试 不 同等 级 的 处 理 

Spark 提供 的 存储 级 别 可 以 参考 官方 网 站 中 的 编程 指南 部 分 ， 具 体内 容 如 表 2. 3 所 示 。 
表 2.4 Spark 提供 的 存储 级 别 及 其 具体 含义 


& x 


存储 级 别 (Storage Level) 


AENMOBS ONIS 将 RDD 以 反 序列 化 (deserialized) 的 Java 对 象 存储 到 JVM, WMR RDD 不 能 被 内 存 
一 装 下 ， 一 些 分 区 将 不 会 被 缓存 ， 并 且 在 需要 的 时 候 被 重新 计算 。 这 是 默认 的 级 别 
将 RDD 以 反 序列 化 的 Java 对 象 存储 到 JVM。 如 果 RDD 不 能 被 内 存 装 下 ， 超 出 的 
es 分 区 将 被 保存 在 硬盘 上 ， 并 且 在 需要 时 被 读 取 
将 RDD 以 序列 化 (serialized) 的 Java 对 象 进行 存储 (每 一 分 区 占用 一 个 字 节 数 
MEMORY. ONLY SER 组 ) 。 通 常 来 说 ， 这 比 将 对 象 反 序列 化 的 空间 利用 率 更 高 ， 尤 其 当 使 用 快速 序列 化 器 
(fast serializer) ， 但 在 读 取 时 会 比较 耗 CPU 


AWA 


F MEMORY ONLY SER, 但 是 把 超出 


MEMORY, AND DISK SER 


次 需要 的 时 候 重新 计算 


内 存 的 分 


区 将 存储 在 硬盘 上 而 不 是 在 每 


DISK_ONLY 


只 将 RDD 分 


区 存储 在 硬盘 上 


MEMORY, ONLY 2 
MEMORY. AND DISK 2 


与 上 述 上 


存储 级 别 一 样 ， 


但 是 将 每 一 个 分 区 都 复制 到 两 个 集 


da 


节 


群 节点 上 


以 序列 人 


OFF_HEAP (experimental) KHE (hea 


因 出 


弃 的 。 


LJ MEMORY AND DISK 3 
1) 首先 导入 存储 级 别 类 : 


了 垃圾 收集 (Garbage Collection) 的 


中 ，Executor AY ARIE 


进行 测试 


的 格式 将 RDD 存储 到 Tac hyon。 THE 


s) MAMTA IE FAEERE UE S 
不 会 导致 内 存 中 的 缓存 丢失 。 
L, Tachyon 不 会 


， 具 体 步 又 如 下 。 


尝试 重建 一 个 在 内 存 中 被 清除 的 分 块 


比 于 MEMORY. ONLY. SER, OFF_HEAP 降低 
销 ， 并 使 Executors 7 


变 得 更 小 而 且 共 享 内 存 池 ， 这 在 
人 的 。 而 且 ， 由 于 RDD 驻 留 于 Tachyon 
在 这 种 模式 下 ，Tachyon 中 的 内 存 是 可 丢 
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import org. apache. spark. storage. StorageLevel. _ 
2) 以 MEMORY. AND DISK 级 别 缓存 RDD， 输 入 命令 : 
bigText. persist( MEMORY AND DISK) > 
3) Action 触发 缓存 ， 输 入 命令 : 


bigText. take(1) 


查看 Web Interface 界面 ( http: //driverhost:4040) 的 Storage 部 分 ， 在 Action 触发 后 真正 
缓存 RDD 时 的 内 存 信息 如 图 2. 26 所 示 。 


Spa — Jobs Stages Storage Environment Executors 


Spark shell application Ul 


Storage 

RDD Name Storage Level CachedParlitions Fraction Cached — Sizein Memory Size in Tachyon Size on Disk 
Ihome/harlilcluster 13 241/data/xdr wuhan 2020150311.csv Memory Deserialized 1x Replicated 1 396 69.5MB 00B 00B 

2 Memory Deserialized 1x Replicated 2 100% 3.3KB 00B 0.08 


CHANGES.txt Memory Deserialized 1x Replicated 2 10096 758.4KB 008 0.08 


图 2.26 Driver Program 中 take 方式 触发 缓存 RDD 后 的 Storage 界面 


可 以 看 到 ， 当 前 缓存 的 分 区 数 为 1， 其 他 未 缓存 的 分 区 在 计算 时 需 重新 计算 。 

解析 : cache 是 一 个 标志 性 操作 ， 仅 在 数据 真正 计算 时 ， 才 会 缓存 到 内 存 ， 因 此 即使 存 
储 级 别 为 MEMORY_AND_DISK， 但 take 操作 只 需要 针对 一 个 分 区 进行 操作 ， 对 应 的 ，Stor- 
age 也 仅 缓 存 了 一 个 分 区 。 


4) count 操作 进行 Action 触发 缓存 ， 输 入 命令 ; 


biglext. count 


查看 Web Interface 界面 ( http://driverhost: 4040) 的 Storage 部 分 ，count 方式 触发 RDD 
缓存 时 的 内 存 信息 如 图 2. 27 所 示 。 


SERE AE SIR AR 
ret CachedPartibons FractlonCeched SizeinMemory Sizein Tachyon Size on Disk 
ed 1x Repieamed 29 100% 177 3MB 008 838 B8 MB 
wnaucedirRepicaed 2 100% 33KB 008 008 
wnalced tx Replcaed 2 100% 7584KB 008 00B 


图 2. 27 Driver Program 中 count 方式 触发 缓存 RDD 后 的 Storage 界面 
可 以 看 到 缓存 的 分 区 数 为 29 ， 其 中 一 部 分 缓存 在 Memory， 一 部 分 缓存 在 Disk， 其 他 未 
缓存 的 分 区 在 计算 时 需 重新 计算 。 


解析 : 与 take 类似 ， aio count 操作 涉及 各 个 分 区 数据 的 计算 ， 因 此 最 终 会 导致 全 部 分 
区 都 处 理 之 前 的 cache 标志 信息 ， 即 ， 存 储 在 内 存 和 磁盘 中 。 
在 RDD Name 列 下 单 击 具 体 的 RDD Name， 可 以 进入 各 个 分 区 数据 缓存 的 具体 信息 ， 部 
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分 分 区 数据 会 存储 在 内 存 中 ， 内 存 装 载 不 下 的 分 区 数据 会 缓存 到 磁盘 中 。 


RDD 的 构建 案例 与 解析 


一 、 加 载 外 部 存储 系统 的 文件 构建 RDD 

首先 ，textFile 方法 构建 时 ,支持 多 种 方式 ， 包 括 目 录 加 载 、 通 配 符 加 载 等 ， 如 . 

1) textFile ("/my/directory" ) : 加 载 指定 目录 下 的 所 有 文件 。 

2. textFile ( "/my/directory/ * . txt"); 加 载 指定 目录 下 所 有 txt 格式 的 文件 。 

3) textFile ("/my/directory/ *. gz"): 下 载 指定 目录 下 所 有 . gz 格式 的 文件 。 

其 次 ，Spark 基于 HDFS 存储 系统 时 ， 可 以 加 载 任何 支持 HadoopInputFormat 格式 的 文件 
输入 ， 同 时 也 支持 任何 以 HadoopOutputFormat 格式 的 文件 输出 。 下 面 以 加 载 时 不 同 的 Ha- 
doopInputFormat 来 说 明 Spark 对 不 同文 件 格 式 的 支持 。 类 似 的 ， 当 Spark 输出 到 外 部 存储 系 
统 时 ， 对 应 不 同 格式 应 使 用 相应 的 HadoopOutputFormat 子 类 。 

小 技巧 : 文件 路 径 中 ， 目 录 的 通配符 使 用 “ **”， 比 如 val file =" hdfs://wh001:8020// 
user/harli/ **/ *.  ", XFM F hdfs://wh001:8020//user/harli/ F Pr FAs RITA “ s. 

* ”格式 的 文件 。 

下 面 举例 分 析 不 同文 件 格式 对 应 的 HadoopInputFormat 子 类 设置 。 

比如 textFile 和 sequenceFile 这 两 个 方法 ， 其 底层 都 是 调用 了 hadoopFile 接口 ， 只 是 使 用 
的 加 载 参数 不 同 ， 下 面 从 源码 上 进行 分 析 。 

textFile 的 源码 ; 


/ kk 
* Read a text file from HDFS,a local file system (available on all nodes) ,or any 
* Hadoop - supported file system URI, and return it as an RDD of Strings. 
*/ 
def textFile( path ; String , minPartitions ; Int = defaultMinPartitions) : RDD[ String] = | 
assertNotStopped( ) 
hadoopFile( path, classOf[ TextInputFormat | , classOf[ LongWritable | , classOf[ Text | , 
minPartitions ). map( pair => pair. _2. toString). setName( path) 


| 


textFile 方法 调用 hadoopFile 时 ， 对 应 的 InputFormat 设置 为 TextInputFormat, ， 即 文本 文件 


sequenceFile 的 源码 . 


defsequenceFile[ K, V ] ( path : String, 
keyClass;Class[ K], 
valueClass ; Class| V | , 
minPartitions ; [nt 
):RDD[(K,V)] =| 

assertNotStopped ( ) 

val inputFormatClass = classOf[ SequenceFileInputFormat[ K, V | | 
hadoopFile( path , inputFormatClass , keyClass , valueClass , minPartitions ) 
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sequenceFile 方法 调用 hadoopFile 时 ， 对 应 的 InputFormat 设置 为 SequenceFileInputFor- 
mat， 即 序列 文件 的 输入 。 

最 后 ， 关 于 文件 压缩 方式 ， 如 textFile ( "/my/directory/ *. gz"), HF. gz 格式 的 压缩 
文件 是 Hadoop 内 置 支持 的 (根据 扩展 名 自动 识别 )， 因 此 可 以 直接 加 载 。 但 如 果 使 用 不 同 (s 
压缩 格式 时 ， 应 该 修改 HDFS 的 配置 信息 ， 具 体 配置 信息 请 查询 具体 版 本 的 Hadoop 官方 
文档 。 

注意 : 内 置 的 . gz 压缩 格式 不 支持 split, 

二 、 从 Scala 数据 集 构建 RDD 

除了 使 用 如 案例 中 的 textFile 方法 加 载 外 部 存储 系统 的 数据 来 构建 RDD 外 ，RDD 还 可 
以 从 Scala 数据 集 构建 ， 下 面 使 用 SparkContext 的 parallelize 方法 来 构建 RDD ， 代 码 如 下 : 


scala > valstrRdd = sc. parallelize ( List ("a" ," b" ,"c" ,"c" ," e") ,2) 

strRdd : org. apache. spark. rdd. RDD[ String] = ParallelCollectionRDD[ 11] at parallelize at < console > : 
21 

scala » strRdd. partitions. size 

res5 :Int =2 

scala > strRdd. toDebugString 

res6 ; String = (2) ParallelCollectionRDD[ 11 | at parallelize at < console > :21 [ | 


Parallelize 的 第 二 个 参数 可 以 用 于 设置 构建 的 RDD 的 分 区 个 数 ， 当 该 参数 未 指定 时 ， 使 
用 SparkContext 的 默认 并 行 数 。 当 Parallelize 的 分 区 参数 未 指定 时 ， 具 体 可 见 下 面 的 源码 
分 析 。 


aed 分 区 数 设置 的 案例 与 源码 解析 


解析 各 种 情况 下 的 RDD 的 分 区 数 设 置 情况 ， 具 体 包 括 加 载 文件 创建 的 RDD 的 分 区 数 、 
SparkContext 中 默认 的 分 区 数 、 经 过 转换 后 的 RDD 的 分 区 数 以 及 针对 特定 的 Key - Value 格 
式 类 型 的 RDD 的 分 区 数 。 

一 、 加 载 文件 创建 RDD 时 的 分 区 数 解析 

如 下 所 示 : 


scala > val textFile = sc. textFile( ". . /README. md" ) 

scala » textFile. toDebugString 

15/03/31 02:06:45 INFOFileInputFormat ; Total input paths to process :1 

res7 :String = 

(2) ../README. md MapPartitionsRDD[| 1 | at textFile at < console > :21 [ | 
| ../README. mdHadoopRDD[0] at textFile at < console > :21 [ | 


scala » textFile. dependencies 


res8 : Seq [ org. apache. spark. Dependency [ _]] = List ( org. apache. spark. OneToOneDependency @ 
3911e00f) 

scala » textFile. partitions. size 

res9 :Int 2 4 

scala » sc. defaultParallelism 

res10 ; Int =4 
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scala > sc. getConf getInt( " spark. default. parallelism" ,0 ) 
res11 :Int 20 


sc. defaultParallelism 是 当前 默认 的 并 行 数 ， 对 应 加 载 的 本 地 文件 〈 非 HDFS 文件 系统 ) 
以 默认 的 并 行 数 作为 构建 的 RDD 的 分 区 数 。 

注意 : 当前 没有 设置 “spark. default. parallelism” 配 置 属性 ， 所 以 使 用 sc. getConf. getInt (" 
spark. default. parallelism", 0) 获取 属性 时 ， 值 为 设置 的 默认 值 0。 

查看 SparkContext 的 源码 . 


/ ** Default level of parallelism to use when not given by user (e. g. parallelize andmakeRDD). */ 
def defaultParallelism ; Int = | 

assertNotStopped( ) 

taskScheduler. defaultParallelism 


} 
跳 转 到 taskScheduler. defaultParallelism 源码 . 


// Get the default level of parallelism to use in the cluster, as a hint for sizing jobs. 
def defaultParallelism( ) : Int 


单 击 方法 前 的 箭头 ， 获 取 其 具体 子 类 的 实现 ， 当 前 仅 提 供 一 个 具体 子 类 ， 即 TaskSched- 
ulerImpl， 如 图 2.28 所 示 。 


Choose overriding member of defaultParallelism G member found) Á 


© TaskSchedulerlmpl (org.apache.spark.scheduler) core Ey 
[6] «anonymaous = core rra] 
Q <anonymous= core [f] 


图 2.28 获取 taskScheduler. defaultParallelism 方法 的 具体 重 载 信息 


跳 转 到 TaskSchedulerImpl 的 源码 : 
override defdefaultParallelism( ) : Int = backend. defaultParallelism( ) 


继续 跳 转 到 backend. defaultParallelism ， 然 后 跳 转 到 具体 子 类 的 实现 ， 继 承 的 全 部 子 类 如 
图 2. 29 所 示 。 


core La | 


图 2.29 获取 重 载 backend. defaultParallelism 方法 的 具体 子 类 
如 MesosSchedulerBackend (对 应 集群 模式 ) 中 的 源码 所 示 : 
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// TODO :queryMesos for number of cores 
override def defaultParallelism( ) :Int = sc. conf. getInt( " spark. default. parallelism" ,8) 


可 以 看 到 defaultParallelim 的 配置 属性 为 : “spark. default. parallelism”， 即 集群 模式 下 使 
用 该 属性 作为 defaultParallelim ， 并 且 默 认 值 为 8。 
如 子 类 LocalBackend 中 的 源码 (对 应 Local 模式 ) 所 示 : 


aende dtderaui Darden) .Tat 
scheduler. conf. getInt( " spark. default. parallelism" ,totalCores) 
可 以 看 到 defaultParallelim 的 配置 属性 为 : “spark. default. parallelism” , {A RAR & iX 
配置 属性 时 ， 默 认 值 为 总 的 内 核 数 ，LocalBackend 对 应 Local 模式 。 
修改 默认 的 配置 文件 $  HOME/conf/spark - defaults. conf， 在 文件 中 添加 该 属性 的 配 
置 ， 如 下 所 示 : 


# Default system properties included when running spark — submit. 


# This is useful for setting default environmental settings. 


# Example: 

# spark. master spark: // master: 7077 

# spark. eventLog. enabled true 

# spark. eventLog. dir hdfs: //namenode: 8021/ directory 

# spark. serializer org. apache. spark. serializer. KryoSerializer 

# spark. driver. memory 5g 

# spark. executor. extraJavaOptions — XX, + PrintGCDetails ~ Dkey = value - Dnumbers =" one two 
three" 


spark. default. parallelism 6 


在 文件 中 添加 一 行 配置 : spark. default. parallelism 6。 重 新 启动 脚本 ， 加 载 文 件 ， 并 查询 
加 载 后 RDD 的 分 区 数 。 

注意 ; 默认 的 并 行 度 只 是 作为 加 载 文件 时 分 区 数 的 最 小 值 参 考 ， 实 际 的 分 块 数 由 加 载 文 件 时 的 Splits 
数 决定 ， 即 文件 的 Blocks 数 。 也 可 以 由 加 载 时 的 APL 参数 指定 分 区 数 。 

Z, Key - Value 元 素 类 型 的 RDD 的 分 区 数 解 析 

所 有 RDD 都 可 以 从 getPartitions 方法 中 找 出 分 区 数 和 父 RDD 的 分 区 数 间 的 依赖 关系 。 
同时 ， 针 对 Key - Value 元 素 类 型 的 RDD， 还 提供 了 精细 控制 的 分 区 器 partitioner， 可 以 通过 
设置 分 区 右 ， 来 指定 元 素 如 何 分 区 的 策略 ， 以 及 分 区 的 个 数 。 

当 没 有 设置 分 区 器 时 ， 上 默认 使 用 HashPartitioner， 具 体 参 见 分 区 器 中 的 默认 分 区 器 定义 
源码 : 


object Partitioner | 
/ kk 


* Choose a partitioner to use for a cogroup — like operation between a number of RDDs. 
* If any of the RDDs already has a partitioner, choose that one. 
* Otherwise, we use a default HashPartitioner. For the number of partitions, if 


* spark. default. parallelism is set,then we ll use the value from SparkContext 


* defaultParallelism , otherwise we ll use the max number of upstream partitions. 
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Unless spark. default. parallelism is set ,the number of partitions will be the 
same as the number of partitions in the largest upstream RDD ,as this should 


be least likely to cause out — of — memory errors. 


We use two method parameters ( rdd , others) to enforce callers passing at least 1 RDD. 
/ 

def defaultPartitioner(rdd; RDD[_ ] , others; RDD[ _]| * ) ; Partitioner = | 

val bySize = (Seq( rdd) ++ others). sortBy(_. partitions. size). reverse 


* 
* 
* 
* 
* 
* 
* 


for (r « - bySize if r. partitioner. isDefined) | 
return r. partitioner. get 


| 

if (rdd. context. conf. contains( " spark. default. parallelism" ) ) | 
new HashPartitioner( rdd. context. defaultParallelism ) 

| else | 
new HashPartitioner( bySize. head. partitions. size) 


| 


| 


从 代码 中 可 以 看 到 ， 当 没有 设置 分 区 数 时 ， 会 使 用 “spark. default. paralelism” 属性 配 
置 的 值 作为 默认 的 分 区 数值 。 

以 Key - Value 为 特定 类 型 的 PairRDDFunctions 类 中 reduceByKey 方法 构建 RDD 为 例 ， 
参见 reduceByKey 代码 . 


EE 
* Merge the values for each key using an associative reduce function. This will also perform 
* the merging locally on each mapper before sending results to a reducer, similarly to a 
* "combiner" in MapReduce. Output will be hash — partitioned with the existing partitioner/ 
* parallelism level. 
*/ 

def reduceByKey ( func; (V, V) => V) RDD[ (K,V)] =} 

reduceByKey ( defaultPartitioner( self) , func ) 

| 


在 调用 基础 的 reduceByKey 方法 ( 男 两 个 API 会 分 别 设 置 分 区 数 或 分 区 需 ) 时 ， 由 于 没 
有 设置 分 区 数 或 分 区 器 ， 因 此 使 用 了 默认 的 分 区 器 ， 这 里 的 默认 分 区 器 就 是 使 用 上 面 在 ob- 
ject Partitioner 中 提 到 的 defaultPartitioner 方法 。 

三 、 源 码 解 析 的 扩展 

在 源码 解析 过 程 中 ， 可 以 进行 一 些 扩展 ， 比 如 之 前 的 MapPartitionsRDD 源码 : 


private[ spark | classMapPartitionsRDD[ U ; ClassTag, T: ClassTag | ( 
prev: RDD[ T] , 
f; ( TaskContext, Int ,Iterator[ T] ) => Iterator[ U], // (TaskContext, partition index, iterator) 
preservesPartitioning ; Boolean = false ) 


extends RDD[ U] (prev) | 


override val partitioner = if ( preservesPartitioning) firstParent[ T]. partitioner else None 
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override def getPartitions ; Array[ Partition ] = firstParent[ T]. partitions 


override def compute( split ; Partition , context ; TaskContext) = 


f( context , split. index, firstParent[ T ]. iterator( split , context) ) 
| e 

一 般 RDD 设置 了 分 区 器 partitioner 时 ， 在 getPartitions 中 都 会 通过 该 分 区 器 ， 控 制 如 何 
从 依赖 的 各 个 父 RDD 中 获取 各 个 分 区 的 数据 ， 而 在 MapPartitionsRDD 中 ， 只 是 根据 参数 pr- 
eservesPartitioning 是 否 为 true 来 控制 是 否 设置 MapPartitionsRDD 的 分 区 器 partitioner。 

因此 引出 了 以 下 问题 : 当 preservesPartitioning 控制 当前 MapPartitionsRDD 的 partitioner 的 
设置 ，preservesPartitioning 的 作用 是 什么 ? 两 种 取 值 true 或 false 具体 应 该 在 什么 情况 下 ? 

问题 的 解析 : 当前 MapPartitionsRDD 的 getPartitions 方法 中 并 没有 依据 partitioner 记录 分 
区 的 数据 来 源 ， 但 作为 分 区 器 ， 它 不 仅 可 以 用 于 RDD 分 区 获取 其 依赖 的 父 RDD 的 数据 上 ， 
还 可 以 将 该 分 区 器 传递 到 其 子 RDD 中 ,在 这 里 ， 主 要 的 目的 是 后 者 ， 将 分 区 器 信息 在 DAG 
的 Lineage 上 进行 传递 。 


Section | 


JEJ RDD API 的 应 用 案例 与 解析 


这 部 分 主要 是 解析 RDD 隐 式 转换 后 的 类 型 的 常用 API 应 用 案例 。 在 解析 过 程 中 ， 首 先 
描述 API 的 功能 及 在 官网 API 上 的 定义 ， 并 基于 API 的 定义 给 出 一 些 案例 ， 对 于 比较 重要 的 
API， 会 给 出 一 些 常用 的 应 用 场景 说 明 。 

RDD 是 一 个 分 布 式 的 数据 集 ， 这 里 分 布 式 的 概念 ， 我 们 可 以 从 另 一 个 角度 来 理解 ， 就 
是 对 大 数据 集 的 操作 可 以 转换 为 对 分 布 式 存放 的 小 数据 的 操作 。 在 RDD 提供 的 各 种 API 中 ， 
重点 理解 各 个 API 的 输入 参数 (BE KRASO 和 返回 值 (注意 各 自 对 应 的 类 型 信息 )， 对 
其 中 的 函数 参数 ， 也 是 一 样 ， 要 理解 该 函数 的 输入 和 返回 值 的 具体 含义 (尤其 是 类 型 信 
息 ) ， 理 解 这 些 内 容 后 ， 结 合 分 布 式 概念 就 可 以 完全 理解 该 API 的 功能 

理解 API 功能 后 ， 就 是 该 是 如 何 使 用 了 ， 刚 开始 使 用 时 ， 可 以 先 构 建 出 API 的 各 个 参 
数 ， 尤 其 是 函数 参数 ， 然 后 传人 该 API 并 执行 ， 执 行 结果 验证 无 误 后 ， 可 以 试 着 简化 代码 ， 
多 尝试 这 种 从 复杂 到 简化 的 过 程 后 ， 这 种 简化 的 函数 式 的 编程 方式 就 很 容易 理解 和 使 用 了 。 

对 某 些 复杂 的 API， 会 先 提供 易于 理解 的 代码 编写 风格 ,然后 用 简化 的 Scala 函数 式 编 
程 方式 进行 重新 编写 ,使 非 函 数 式 编程 的 开发 者 能 更 容易 过 渡 到 函数 式 风 格 的 编写 。 

在 解析 API 时 ， 对 API 做 了 一 些 分 类 ， 包括 针对 RDD/ 扩 展 RDD 的 API, RDD 间 / 扩 展 
RDD 间 的 API 等 。RDD 间 / 扩 展 RDD 间 的 API 是 指 对 两 个 或 两 个 以 上 的 RDD 之 间 进 行 操作 
的 API。 

这 部 分 内 容 主 要 是 给 出 在 开发 调试 场景 下 ， 如 何 去 实 践 案例 ， 并 在 实践 过 程 中 加 深 对 
RDDAPI 的 理解 的 方法 。 

准备 工作 包括 以 下 两 部 分 : 

一 、 使 用 交互 式 方式 进行 API 实践 及 解析 

启动 交互 式 工具 spark - shell， 解 析 API 实践 的 代码 及 其 输出 结果 。 如 何 启动 交互 式 工 
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具 spark - shell 请 参考 章节 2.2.2 交互 式 工 具 的 启动 。 

二 、 控 制 日 志 信 息 输 出 

在 解析 过 程 中 ， 为 了 专注 于 APL 的 代码 及 其 输出 信息 ， 在 交互 式 工具 spark - shell 的 控 
制 界面 上 输入 下 面 代码 ( 仅 针 对 “org. apache. Spark” 部 分 的 日 志 信 息 ) ， 提 高 日 志 输 出 等 
级 或 关闭 日 志 信息 。 


import org. apache. log4j. | Level, Logger} 
Logger. getLogger( " org. apache. spark" ). setLevel( Level. WARN) // 设置 级 别 为 WARN 
Logger. getLogger( " org. apache. spark" ). setLevel( Level. OFF) // 关闭 日 志 输 出 


如 何 查找 RDD API 的 隐 式 转换 2 


隐 式 转换 函数 为 装载 不 同类 型 的 RDD 提供 了 相应 的 额外 功能 。 通 过 查看 SparkContext 
提供 的 隐 式 转换 ， 就 可 以 找到 额外 功能 定义 的 类 ， 并 查看 其 对 外 提供 的 API 接口 了 。 

隐 式 转换 后 的 类 包括 以 下 几 种 : 

1) PairRDDFunctions; 该 扩展 类 中 的 方法 中 输入 的 数据 单元 是 一 个 包含 两 个 元 素 的 元 组 
结构 。Spark 会 把 其 中 第 一 个 元 素 当 成 key， 第 二 个 当成 value。 

2) DoubleRDDFunctions; 这 个 扩展 类 包含 了 很 多 数值 的 聚合 方法 。 如 果 RDD 的 数据 单 
元 能 够 隐 式 变换 成 Scala 的 double 数据 类 型 ， 则 这 些 方法 会 非常 有 用 

3) OrderedRDDFunctions; 该 扩展 类 的 方法 需要 输入 的 数据 是 2 元 元 组 ， 并 且 key 能 够 
排序 。 

4) SequenceFileRDDFunctions; 这 个 扩展 类 包含 一 些 可 以 创建 Hadoop sequence 文件 的 方 
法 。 输 入 数据 必须 是 2 元 元 组 。 但 需要 额外 考虑 到 元 组 元 素 能 够 转换 成 可 写 类 型 。 

一 、 自 定义 隐 式 转换 类 的 场景 

自 定义 隐 式 转换 类 可 以 用 于 对 现 有 的 RDD 功能 进行 扩展 。 

一 般 情况 下 ， 对 功能 进行 扩展 时 ， 可 以 构建 自己 的 工具 类 ， 对 RDD 进行 操作 ， 比 如 ， 
我 们 定义 一 个 过 滤 方 法 ， 然 后 通过 该 方法 将 RDD 拆 分 成 两 个 RDD 时 ， 就 可 以 构建 一 个 自己 
的 API， 用 类 似 于 List 类 的 override def span(p:A => Boolean) : ( List[ A],List[ A]) 方 法 。 我 
们 可 以 用 类 似 下 面 的 方式 实现 : 


package objectmytools | 
defspan(rdd: RDD[ A] ,f;A => Boolean):(RDD[ A], RDD[ A])=| 
(rdd. filter( f) ,rdd. filter( ! f) ) 
} 


| 


这 里 为 了 方便 调用 ,将 Span 方法 直接 放 package object 里 ， 使 用 时 不 需要 再 显 式 导入 
( 即 不 需要 再 手动 添加 Import 语句 ) 。 

一 个 span 调用 就 可 以 把 传人 的 RDD 根据 过 滤 函 数 {f 进 行 拆 分 了 。 

如 果 想 更 加 简便 的 使 用 自 定 义 扩展 功能 的 话 ， 我 们 可 以 借鉴 Spark 对 RDD 额外 功能 的 
扩展 方式 ， 即 隐 式 转换 ， 来 扩展 针对 我 们 自己 特定 的 类 型 而 提供 的 额外 RDD API。 比 如 ， 我 
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们 有 一 个 类 MyClass ， 这 时 候 就 可 以 针对 该 类 型 提供 一 个 隐 式 转换 ， 以 及 扩展 API 的 定义 ， 
具体 实现 方式 可 直接 参考 Spark 扩展 额外 功能 的 源码 ， 比 如 下 面 所 示 源 码 : 


class MyClass(…) {+++} 
class MyClass RDDFunctions (self; RDD[ MyClass]) extends Logging with Serializable | S 


object MyClass RDDFunctions | 

implicit def rddToMyClassRDDFunctions( rdd: RDD[ MyClass | ) 
:MyClass RDDFunctions = | 

new MyClass RDDFunctions( rdd) 

} 

} 


下 面 简单 介绍 下 扩展 的 RDD 类 的 隐 式 转换 部 分 的 源码 。 
二 、Spark 1.3 之 前 的 版 本 
在 对 RDD 进行 各 种 处 理 的 过 程 中 ， 需 要 手动 导入 隐 式 转换 语句 ， 语 句 如 下 : 


import org. apache. spark. SparkContext. _ 
通过 导入 语句， 可 以 将 Object SparkContext 中 的 隐 式 转换 加 载 到 当前 作用 域 中 。 导 入 后 


才能 支持 除 RDD [T] 提供 的 API 之 外 的 其 他 API， 通 过 在 Object SparkContext 中 查找 关键 
字 “rddTo” 可 以 搜 到 一 系列 的 RDD 转换 定义 ， 源 码 如 下 所 示 : 


// The following deprecated functions have already been moved to object RDD to 
// make the compiler find them automatically. They are still kept here for backward compatibility 
// and just call the corresponding functions in object RDD . 


@ deprecated( " Replaced by implicit functions in the RDD companion object. This is " + 
"kept here only for backward compatibility. " ," 1. 3. 0" ) 
def rddToPairRDDFunctions[ K, V ] (rdd: RDD[ (K,V) |) 
(implicit kt; ClassTag[ K ] , vt; ClassTag[ V | , ord: Ordering[ K ] = null) = | 
RDD. rddToPairRDDFunctions( rdd) 


l 

j 

@ deprecated( " Replaced by implicit functions in the RDD companion object. This is " + 
"kept here only for backward compatibility. " ," 1. 3. 0" ) 

def rdd ToAsyncRDDActions| T: ClassTag | (rdd; RDD[ T]) = RDD. rddToAsyneRDDActions( rdd) 


(? deprecated( " Replaced by implicit functions in the RDD companion object. This is " + 


"kept here only for backward compatibility. " ," 1. 3. 0" ) 
def rddToSequenceFileRDDFunctions[ K <% Writable;ClassTag, V <% Writable:ClassTag | ( 
rdd:RDD[ (K,V) ]) =| 

val kf = implicitly[ K => Writable ] 

val vf = implicitly[ V => Writable ] 

// Set the Writable class to null and’ SequenceFileRDDFunctions will use Reflection to get it 

implicit val keyWritableFactory = new WritableFactory[ K] (_ => null, kf) 

implicit val valueWritableFactory = new WritableFactory[ V ] (_ => null, vf) 

RDD. rddToSequenceFileRDDFunctions ( rdd) 
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@ deprecated( " Replaced by implicit functions in the RDD companion object. This is " + 


"kept here only for backward compatibility. " ," 1. 3. 0" ) 

def rddToOrderedRDDFunctions[ K ; Ordering ; ClassTag, V : ClassTag | ( 

rdd: RDD[ (K,V)]) = 
RDD. rddToOrderedRDDFunctions ( rdd ) 

@ deprecated( " Replaced by implicit functions in the RDD companion object. This is " + 
"kept here only for backward compatibility. " ," 1. 3. 0" ) 

def doubleRDDToDoubleRDDFunctions ( rdd : RDD[ Double] ) = RDD. doubleRDDToDoubleRDDFunctions 

(rdd) 

@ deprecated ( " Replaced by implicit functions in the RDD companion object. This is " + 
"kept here only for backward compatibility. " ," 1. 3. 0" ) 

def numericRDDToDoubleRDDFunctions[ T | (rdd:RDD[ T] ) (implicit num; Numeric| T] ) = 
RDD. numericRDDToDoubleRDDFunctions ( rdd) 


这 段 代 码 是 基于 1.3 版 本 的 ， 为 了 保证 版 本 的 后 续 兼 容 性 ，Sparkl1. 3 版 本 中 将 这 些 方法 
标注 为 “@ deprecated”， 即 表示 不 建议 继续 使 用 这 些 方法 。 

三 、Spark 1.3 版 本 

Spark 1. 3 版 本 中 ， 这 部 分 隐 式 转换 函数 已 经 被 移 到 object RDD 中 ， 使 用 时 不 需要 再 手 
动 导入 ， 而 是 由 编译 器 自动 去 识别 。 


具体 源码 如 下 : 
/ x 


* Defines implicit functions that provide extra functionalities on RDDs of specific types. 


* 

* For example, [| RDD.rddToPairRDDFunctions || converts an RDD into a 
[ [ PairRDDFunctions | ] for 
* 


key - value  - pair  RDDs, and enabling extra functionalities such as 
[ [ PairRDDFunctions. reduceByKey | ]. 
*/ 
object RDD | 


// 'The following implicit functions were in SparkContext before 1. 3 and users had to 
// import SparkContext. ”to enable them. Now we move them here to make the compiler find 
// them automatically. However, we still keep the old functions in SparkContext for backward 
// compatibility and forward to the following functions directly. 
implicit def rddToPairRDDFunctions[ K, V ] (rdd: RDD[ (K,V) ]) 
(implicit kt; ClassTag| K ] , vt: ClassTag[ V ] , ord; Ordering[ K ] = null) ; PairRDDFunctions| K, V | 


new PairRDDFunctions( rdd ) 

} 

implicit def rddToAsyncRDDActions| T; ClassTag | (rdd:RDD[T] ) : AsyncRDDActions[ T] = | 
new AsyncRDDActions( rdd) 

} 

implicit def rddToSequenceFileRDDFunctions[ K,V ] (rdd: RDD[ (K, V) ]) 

(implicit kt; ClassTag[ K ] ,vt:ClassTag[ V] , 
keyWritableFactory : WritableFactory[ K ] , 
valueWritableFactory: WritableFactory[ V ] ) 

:SequenceFileRDDFunctions[ K, V ] = | 
implicit val keyConverter = keyWritableFactory. convert 
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implicit val valueConverter = valueWritableFactory. convert 
new SequenceFileRDDFunctions( rdd , 
keyWritableFactory. writableClass( kt) , valueWritableFactory. writableClass( vt) ) 


| 


implicit def rddToOrderedRDDFunctions[ K ; Ordering : ClassTag, V : ClassTag | ( rdd: RDD[ (K,V) ]) > 
:OrderedRDDFunctions| K,V,(K,V) ] = | 


new OrderedRDDFunctions| K, V, (K,V) | (rdd) 

] 

implicit def doubleRDDToDoubleRDDFunctions( rdd : RDD[ Double ] ) : DoubleRDDFunctions = | 
new DoubleRDDFunctions( rdd) 

| 

implicit def numericRDDToDoubleRDDFunctions[ T ] (rdd: RDD[ T] ) (implicit num; Numeric[ T] ) 
: DoubleRDDFunctions = | 
new DoubleRDDFunctions( rdd. map(x => num. toDouble( x) ) ) 

| 

| 


对 应 这 部 分 隐 式 转换 后 的 类 型 ， 它 的 API 可 以 直接 在 RDD 实例 中 被 应 用 到 计算 中 。 


JS RDD[T] 的 分 区 相关 的 API 


解析 对 RDD 分 区 设置 相关 的 API， 包 括 repartition, 、coalesce。 在 解析 过 程 中 ， 通 过 解读 
源码 ， 可 以 理解 这 两 个 API 之 间 的 关系 。 
RDD 的 分 区 个 数 对 应 了 该 RDD 处 理 时 的 并 行 度 ， 在 实践 过 程 中 ， 可 以 通过 修改 一 个 
RDD 的 分 区 数 来 优化 性 能 。 
一 、coalesce 
1. 定义 
def coalesce( numPartitions ; Int, shuffle ; Boolean = false) (implicit ord; Ordering[ T] = null) : RDD[ T] 
2. 功能 描述 
coalesce 对 RDD 数据 重新 分 区 ， 如 果 是 减少 分 区 ， 直 接 设置 新 的 分 区 数 即 可 ， 如 果 增 加 
分 区 个 数 ， 需 要 设置 Shuffle 为 rue， 否 则 分 区 设置 无 效 。 
需要 注意 的 是 ， 即 使 是 减少 分 区 个 数 ， 如 果 设 置 了 Shuffle 为 true ， 在 重新 分 区 过 程 中 也 
会 产生 Shuffle 过 程 。 
3. 示例 
coalesce 带 两 个 参数 ， 根 据 以 下 两 种 情况 的 组 合 ， 来 分 析 该 方法 的 作用 。 
1) numPartitions; 分 区 数 的 增加 /减少 。 
2) shuffle; 重 分 区 过 程 中 是 否 进行 shuffle 操作 。 
// 从 Scala 数据 集 构建 RDD ,并 设置 分 区 数 为 2 
scala > valstrRdd = sc. parallelize ( List ("a" ," b" ,"c" ,"c" ," e") ,2) 


strRdd : org. apache. spark. rdd. RDD[ String] = ParallelCollectionRDD[ 11] at parallelize at < console > : 
21 


// 查 看 RDD 的 分 区 数 
scala > strRdd. partitions. size 
res5 :Int =2 
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// 查 看 RDD 构建 的 Lineage 关系 
scala > strRdd. toDebugString 
res6 ;String = (2) ParallelCollectionRDD| 11 | at parallelize at < console > :21 [ | 


器 


// 下 面 是 重新 设置 分 区 的 操作 ,通过 设置 不 同 的 参数 查看 API 的 效果 
scala > strRdd. coalesce( 1). partitions. size 

res7 :Int = 1 

scala > strRdd. coalesce( 1). toDebugString 

res8 ; String = 

(1) CoalescedRDD[ 13 ] at coalesce at < console > :24 [ | 

| ParallelCollectionRDD[ 11 |] at parallelize at < console > :21 | | 

scala > strRdd. coalesce( 1 , true). partitions. size 

res9 : Int = 1 


scala > strRdd. coalesce( 1 , true). toDebugString 
res10 : String = 
(1) MapPartitionsRDD| 21 | at coalesce at < console > :24 [ | 
| CoalescedRDD[ 20 | at coalesce at < console > :24 [|] 
|ShuffledRDD[ 19] at coalesce at < console > :24 | | 
+ — (2) MapPartitionsRDD[ 18] at coalesce at < console > :24 [ ] 
| ParallelCollectionRDD[ 11 ] at parallelize at < console > :21 | ] 
scala > strRdd. coalesce(4). partitions. size 
res11:Int =2 
scala > strRdd. coalesce(4 , true). toDebugString 
res12 :String = 
(4) MapPartitionsRDD| 26 | at coalesce at < console > :24 [ | 
| CoalescedRDD[ 25 | at coalesce at < console > :24 [|] 
|ShuffledRDD[ 24] at coalesce at < console > :24 | | 
+ — (2) MapPartitionsRDD[ 23] at coalesce at < console > :24 [|] 
| ParallelCollectionRDD[ 11 ] at parallelize at < console > :21 [ ] 
// 没 有 指定 shuffle X true 时 ,设置 更 小 的 分 区 数 不 起 作用 
scala > strRdd. coalesce(4). partitions. size 
res13 ; Int =2 
scala > strRdd. coalesce (4, true). toDebugString 


res14 : String = 
(4) MapPartitionsRDD[ 31 | at coalesce at < console > :24 [ | 
|CoalescedRDD[30 | at coalesce at < console > :24 [|] 
| ShuffledRDD[ 29 | at coalesce at < console > :24 | | 
+ — (2) MapPartitionsRDD[ 28 | at coalesce at < console > :24 [|] 
| ParallelCollectionRDD[ 11 ] at parallelize at < console > :21 [ ] 


4. 示例 解析 


首先 获取 RDD 的 分 区 数 ， 当 前 分 区 数 为 2， 然 后 使 用 coalesce 测试 将 分 区 数 增加 或 减少 
后 的 分 区 个 数 ， 测 试 时 ， 对 shuffle 参数 也 分 别 进行 了 设置 。 


需要 注意 的 是 ， 即 使 在 减少 分 区 数 时 ， 如 果 shuffle 参数 设置 为 true， 对 应 的 Lineage X 


系 图 中 就 会 有 ShuftledRDD ， 会 存在 Shuffle 过 程 。 

5. 应 用 场景 

1) 大 数据 集 加 载 并 过 滤 ， 过 滤 后 每 个 分 区 的 数据 量 非常 小 ， 这 时 候 可 以 使 用 该 API, 
减少 分 区 数 ， 把 小 数据 量 的 分 区 合并 成 一 个 分 区 。 
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2) 当 将 小 数据 量 文 件 保存 到 外 部 存储 系统 时 ， 可 以 通过 将 分 区 数 重 设 为 1， 使 得 输出 
的 数据 在 一 个 文件 中 ， 方 便 查 看 。 
3) 当 分 区 数 太 低 ， 导 致 CPU 使 用 率 过 低 时 ， 可 以 借用 该 方法 增加 分 区 数 ， 即 增加 处 理 


的 并 行 度 ， 这 时 候 可 以 提高 CPU 的 使 用 率 ， 继 而 提高 性 能 。 © 
Z, repartition 
1. 定义 


def repartition ( numPartitions :Int) (implicit ord; Ordering| T] = null) :RDD[T] 


2. 功能 描述 

也 是 对 RDD 数据 重新 分 区 ， 通 过 对 源码 的 解析 ， 可 以 看 到 它 实际 上 是 通过 调用 coalesce 
方法 来 实现 的 ,但 是 在 调用 时 ， 将 shuffle 的 参数 设置 为 kue， 因 此 ， 在 调用 repartition 方法 
时 ， 会 产生 shuffle 过 程 。 

说 明 : 通过 以 上 解析 可 知 ， 如 果 重 新 分 区 不 需要 Shuffle 即 可 完成 的 话 ， 应 该 直接 调用 
coalesce 方法 来 实现 。 

3. repartition 的 源码 


Zw 


* Return a new RDD that has exactly numPartitions partitions. 


* Can increase or decrease the level of parallelism in this RDD. Internally ,this uses 


* a shuffle to redistribute data. 


* If you are decreasing the number of partitions in this RDD , consider using’ coalesce , 
* which can avoid performing a shuffle. 
*/ 
def repartition ( numPartitions ; Int) (implicit ord: Ordering[ T] = null) : RDD[ T] = | 
coalesce ( numPartitions , shuffle = true) 


1 
j 


repartition 方法 其 实 就 是 coalesce ( numPartitions, shuffle = true) 方法 的 替换 。 
4. 示例 


scala > valstrRdd = sc. parallelize ( List ("a" ,"b" ," e" ,"c" ,"e") ,2) 
strRdd : org. apache. spark. rdd. RDD[ String] = ParallelCollectionRDD[ 32] at parallelize at < console > : 
22 


scala » strRdd. partitions. size 
res17 :Int =2 


scala > strRdd. repartition( 1). partitions. size 
res18:Int =1 


scala > strRdd. repartition( 1). toDebugString 

res19 : String = 

(1) MapPartitionsRDD| 40 ] at repartition at < console > :25 [ | 
| CoalescedRDD[ 39 | at repartition at < console > :25 [ | 
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| ShuffledRDD[38 ] at repartition at < console > :25 [ ] 
+ — (2) MapPartitionsRDD[ 37] at repartition at < console > :25 [ ] 
| ParallelCollectionRDD[32 ] at parallelize at < console > :22 [ ] 


// fll coalesce(4 , true) XX A ie — FEIN 
scala > strRdd. repartition(4 ) . partitions. size 
res20 : Int =4 


scala > strRdd. repartition( 4) . toDebugString 
res21 ; String = 
(4) MapPartitionsRDD[48 ] at repartition at < console > :25 [ ] 
| CoalescedRDD[ 47 | at repartition at < console > :25 [ ] 
| ShuffledRDD[ 46 ] at repartition at < console > :25 | ] 
+ — (2) MapPartitionsRDD[ 45 | at repartition at < console > :25 [ ] 
| ParallelCollectionRDD[ 32 ] at parallelize at < console > :22 [ ] 


5. 示例 解析 

可 以 看 到 ， 使 用 repartition 进行 数据 重新 分 区 后 得 到 的 RDD 都 会 有 ShuffledRDD 的 父 依赖 。 

6. 应 用 场景 

由 上 面 的 分 析 可 知 ，repartition 实际 上 是 coalesce ( numPartitions, shuffle = true) 的 缩写 ， 
因此 ，coalesce 的 应 用 场景 也 适用 于 该 API。 


"R5 RDD[ TT] 常 用 的 聚合 API 


详细 解析 RDD 一 些 聚 合 、 归 并 操作 的 API， 具 体 包 括 aggregate, reduce, fold 等 。 
—, aggregate 
1. 定义 


def aggregate[ U ] (zeroValue: U) (seq0p:(U,T) => U,combOp: (U,U) => U) (implicit arg0:ClassTag 
[U]):U 

2. 功能 描述 

aggregate 函数 首先 用 初始 值 (zeroValue) 和 seqOp 操作 ， 将 每 个 分 区 里 面 的 元 素 进行 聚 
合 ， 对 聚合 后 每 个 分 区 会 返回 一 个 类 型 为 U 的 值 ， 然 后 再 用 combOp 函数 将 各 个 分 区 的 返回 
值 再 次 进行 聚合 。 

3. 示例 

本 案例 中 U 的 类 型 为 List[ String], m RDD 的 类 型 为 Strings 


scala > valzeroValue ; List[ String] =Nil 

zeroValue ; List[ String | = List( ) 

// 在 分 区 内 部 使 用 的 归并 函数 ,以 zeroValue 为 初始 值 ,作用 在 分 区 的 各 个 元 素 上 
// 这 里 的 效果 是 将 分 区 元 素 归 并 到 一 个 List 中 

scala > defseqOP( newValue ; List| String] ,elemValue: String) : List[ String] = | 


| elemValue: :newValue 
| | 
seqOP: (newValue: List[ String | , elemValue ; String) List[ String ] 
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// 对 分 区 归并 的 结果 再 次 进行 归并 的 操作 ,分 区 归并 的 结果 是 List[ String | 
// 这 里 将 各 个 分 区 归并 结果 再 次 归并 成 一 个 List 
scala > defcombOp( partA ; List[ String ] , partB ; List[ String] ) : List| String | = | 
| partA: ; : partB 
" © 
combOp: (partA ; List[ String | , partB ; List[ String ] ) List[ String ] 
scala > valstrRdd = sc. parallelize ( List ("a" ,"b" , "e" ,"c" ,"e") ,2) 
strRdd : org. apache. spark. rdd. RDD[ String] = ParallelCollectionRDD[ 50] at parallelize at < console > : 
22 
scala > strRdd. aggregate( zeroValue) ( seqOP , combOp) 
res24 ; List[ String] = List(e,c,c,b,a) 


简化 ， 去 掉 zeroValue 的 定义 . 


scala > strRdd. aggregate[ List[ String] | ( Nil) ( seqOP, combOp) 
res25 ; List[ String] = List(b,a,e,c,c) 


进一步 简化 ， 去 掉 函 数 的 定义 : 


scala > strRdd. aggregate[ List[ String] ] (Nil)( (a,b) =>b::a,(l,r) =>1:::r ) 
res26 ; List[ String] = List(b,a,e,c,c) 


4. 示例 解析 

其 中 ， 当 Scala 编译 需 无 法 进行 类 型 推导 时 ， 则 需要 指定 类 型 ， 比 如 指定 U 为 [List 
[String] ] 。 简 化 的 代码 比较 难 理解 ， 可 以 通过 API 的 签名 ，strRDD 元 素 的 类 型 等 自己 推导 ， 
以 加 深 理解 。 
通过 aggregate 操作 ， 最 终 得 到 类 型 为 U 的 值 ， 和 初始 值 zeroValue 的 类 型 相同 ， 但 不 需 
要 和 RDD 中 元 素 类 型 一 致 。 

因此 ， 通 过 aggregate 操作 可 以 得 到 与 RDD 元 素 类 型 T 不 同 的 聚合 类 型 U。 

二 、reduce 

1. 定义 

def reduce(f:(T,T) =>T):T 


2. 功能 描述 
使 用 具有 交换 性 和 关联 性 的 二 进 制 操作 ， 对 RDD 的 元 素 进 行 归并 。 
3. 示例 


scala > valreduceRdd = sc. parallelize ( List ("a" ,"b" ,"c") ,2) 

reduceRdd ; org. apache. spark. rdd. RDD[ String] = ParallelCollectionRDD[ 51 ] at parallelize at < console 
> :22 

scala > reduceRdd. partitions. size 

res28 : Int =2 

scala > valintRdd = sc. parallelize ( List[ Int] (1,2,3,4,5,6) ,2) 

intRdd : org. apache. spark. rdd. RDD[ Int] = ParallelCollectionRDD[ 52 ] at parallelize at < console > :22 
// 对 RDD 的 元 素 进 行 归并 操作 

// 先 在 各 个 分 区 上 进行 归并 ,然后 将 归并 结果 再 次 进行 相同 的 归并 

// 这 里 取 元 素 的 最 大 值 ,a 和 b 是 RDD 的 两 个 元 素 (或 者 说 数据 单元 ,T 的 实例 ) 

scala > intRdd. reduce( (a,b) =>if(a>b) a else b) 


大 数据 实例 开发 教程 


res29 : Int 2 6 
scala » import java. lang. Math 


import java. lang. Math 

scala > intRdd. reduce( (a,b) => Math. max(a,b) ) 
res30 : Int 2 6 

scala > intRdd. reduce( Math. max  ) 

res31 : Int 2 6 


4. 示例 解析 
需要 注意 的 是 ， 归 并 RDD 数据 后 得 到 的 值 的 类 型 必须 是 和 RDD 元 素 的 类 型 一 致 。 
5. 应 用 场景 
通常 用 于 将 Driver Program 端的 Scala 数据 集 转换 为 RDD， 可 以 用 于 用 户 自己 构建 的 数 
据 集 ， 也 可 以 针对 前 面 RDD 的 返回 数据 集 ， 比 如 collect 操作 返回 的 数组 数据 集 等 ， 转 换 为 
RDD 后 ， 就 可 以 使 用 RDD 提供 的 丰富 的 API 操作 进行 分 布 式 计算 了 。 
二 、fold 
1. 定义 
def fold( zeroValue:T) (op: (T, T) 2» T) :T 
2. 功能 描述 
聚合 每 个 分 区 的 元 素 ， 然 后 使 用 具有 关联 性 的 操作 ， 以 及 一 个 初始 值 ， 将 每 个 分 区 聚合 
的 结果 进行 归并 。 
给 定 的 op (d, Q) 操作 运行 修改 第 一 个 参数 值 ， 并 返回 其 结果 ， 这 可 以 避免 对 结果 值 
的 内 存 分 配 ， 但 不 应 该 修改 第 二 个 参数 值 。 
3. 示例 
scala > valintRdd = sc. parallelize ( List[ Int] (1,2,3,4,5,6) ,2) 
intRdd : org. apache. spark. rdd. RDD[ Int] = ParallelCollectionRDD[ 53 | at parallelize at < console > :23 
// RDD 本 质 上 是 一 个 数据 集合 , 它 的 fold 功能 和 List 的 fold 功能 是 差不多 的 
// 只 是 采用 分 布 式 方式 进行 
// 对 分 区 子 集合 (lterator[ T] ) 进行 fold ,然后 对 该 结果 的 数据 集 再 用 操作 参数 进行 归并 
scala > intRdd. fold(0) ( (a,b) =>if(a >b) a else b) 


res32 : Int 2 6 
scala » import java. lang. Math 


import java. lang. Math 

scala > intRdd. fold(0) ( (a,b) => Math. max(a,b) ) 
res33 :Int 2 6 

scala > intRdd. fold( 0) (Math. max _) 

res34 ; Int 2 6 


4. 示例 解析 

fold 操作 时 ， 用 于 归并 的 初始 值 以 及 操作 的 返回 值 的 类 型 ， 都 必须 和 RDD 元 素 的 类 型 一 致 

四 、fold 与 reduce 操作 的 对 比 

fold 与 reduce 的 一 个 重要 差别 在 于 ， 前 者 在 “op:(T,T) =>T” 语 句 作 用 在 一 个 分 区 的 
元 素 集合 上 时 ， 提 供 了 一 个 初始 值 。 
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DoubleRDDFunctions ( self: RDD 


[ Double] ) 常用 的 API 


这 个 扩展 类 包含 了 很 多 数值 的 聚合 方法 。 如 果 RDD 的 数据 单元 能 够 隐 式 变换 成 Scala 的 
Double 数据 类 型 ， 这 些 方法 在 做 数据 解析 、 数 据 统计 时 会 非常 有 用 。 

一 、histogram 

1. 定义 


def histogram( buckets :Array[ Double ] , evenBuckets ; Boolean = false) ; Array[ Long | 
def histogram bucketCount ; Int) : ( Array[ Double | , Array[ Long] ) 


2. 功能 描述 

针对 元 素数 据 类 型 为 Double 的 RDD 统计 直方 图。 支持 两 种 方式 进行 统计 : 

1) 一 种 是 自 定 义 分 桶 区 间 〈 左 闭 右 开 区 间 : [ ) ): 返回 两 个 数组 ， 一 个 是 每 个 分 桶 边 
界 值 ， 另 一 个 是 各 个 分 桶 的 统计 数 。 

2) 一 种 是 设置 分 桶 数 进 行 平 均 分 : 返回 各 个 分 桶 的 统计 数 。 

3. 示例 


scala > valhgRDD = sc. parallelize( List(1.1,1.2,2.1,2.2,2,3,4.1,4.3,7.1,8.3,9.3),2) 
hgRDD : org. apache. spark. rdd. RDD[ Double] = ParallelCollectionRDD [ 76 ] at parallelize at < console 
> :37 

scala > hgRDD. histogram( Array(0. 0,4. 1,9. 0) ) 

res64 ; Array[ Long] = Array(6 ,4) 

// 设 置 evenBuckets 为 true 时 ,会 采用 常量 时 间 内 快速 分 桶 方法 ， 

// 应 该 在 分 布 比较 均匀 的 情况 下 使 用 

scala > hgRDD. histogram( Array (0. 0,4. 1,9. 0) , true) 

res65 ; Array| Long] = Array(6,3) 

scala > hgRDD. histogram(3) 

res66 : ( Array [ Double |, Array [ Long ]) = ( Array ( 1. 1, 3. 833333333333334 , 6. 566666666666668 , 
9. 3) , Array(6,2,3)) 


—. mean 
1. 定义 
def mean( ) : Double 
defmeanApprox ( timeout ; Long, confidence ; Double — 0. 95) : PartialResult| BoundedDouble 


2. 功能 描述 
求 RDD 元 素 的 平均 值 ，meanApprox 是 计算 近似 的 平均 值 。API 名 字 带 Approx 的 都 是 近 
似 计算 。 
3. 示例 
scala > valdbRdd = sc. parallelize(List(1.1,1.2,2.1,2.2,2,3,4.1,4.3,7.1,8.3,9.3) ,2) 
dbRdd; org. apache. spark. rdd. RDD[ Double] = ParallelCollectionRDD [ 83 ] at parallelize at < console 
> :37 
scala > dbRdd. mean 
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res69 ; Double =4. 063636363636364 
scala » dbRdd. meanApprox( 1 ,0. 9) 
res70 : org. apache. spark. partial. PartialResult | org. apache. spark. partial. BoundedDouble ] = ( partial: 
[ - Infinity , Infinity ] ) 
scala > dbRdd. meanApprox ( 1000 ,0. 9) 
res72 : org. apache. spark. partial. PartialResult [ org. apache. spark. partial. BoundedDouble ] = ( final: 
[ 4. 064 ,4. 064] ) 
=, sampleStdev 
1. 定义 
def sampleStdev( ) : Double 


2. 功能 描述 
计算 RDD 元 素 的 样本 标准 偏差 (sample standard deviation) 。 
3. 示例 
scala > valdbRdd = sc. parallelize( List(1.1,1.2,2.1,2.2,2,3,4.1,4.3,7.1,8.3,9.3),2) 
dbRdd org. apache. spark. rdd. RDD[ Double] = ParallelCollectionRDD [ 85 ] at parallelize at < console 
> :37 
scala > dbRdd. sampleStdev 
res73 ; Double — 2. 9042288915554604 


. sampleVariance 
1. 定义 
def sampleVariance( ) : Double 
2. 功能 描述 
计算 RDD 元 素 的 样本 偏差 。 
3. 示例 
scala > valdbRdd = sc. parallelize(List(1.1,1.2,2.1,2.2,2,3,4.1,4.3,7.1,8.3,9.3) ,2) 
dbRdd org. apache. spark. rdd. RDD[ Double] = ParallelCollectionRDD [ 87 ] at parallelize at < console 
> :37 
scala > dbRdd. sampleVariance 
res74 ; Double = 8. 434545454545457 
Hh, stats 
1. 定义 
def stats( ) :StatCounter 
2. 功能 描述 
RDD 元 素 的 统计 ， 包 含 平均 值 、 标 准 偏差 、 最 大 值 和 最 小 值 。 
3. 示例 


scala > val dbRdd = sc. parallelize( List( 1. 1,1. 2,2. 1,2. 2,2,3,4. 1,4. 3,7. 1,8. 3,9. 3) ,2) 
dbRdd :org. apache. spark. rdd. RDD[ Double ] = ParallelCollectionRDD [87 ] at parallelize at < console > :37 
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scala > dbRdd. stats 
res75; org. apache. spark. util. StatCounter = ( count; 11, mean; 4.063636, stdev: 2.769074, max: 
9. 300000 , min :1. 100000) 


73. stdev S 


def stdev( ) : Double 


2. 功能 描述 
计算 RDD 元 素 的 标准 偏差 。 
3. 示例 
scala > val dbRdd = sc. parallelize( List(1. 1,1. 2,2. 1,2. 2,2,3,4. 1,4. 3,7. 1,8. 3,9. 3) ,2) 
dbRdd org. apache. spark. rdd. RDD[ Double] = ParallelCollectionRDD [ 90] at parallelize at < console 
> :37 
scala > dbRdd. stdev 
res76 :Double =2. 769073598704326 


七 、sum、sumApprox 
1. 定义 
def sum( ) :Double 
def sumApprox( timeout ; Long, confidence ; Double =0. 95) ; PartialResult| BoundedDouble | 


2. 功能 描述 
RDD 元 素 的 求 和 和 近似 求 和 。 
3. 示例 
scala > val dbRdd = sc. parallelize( List( 1. 1,1. 2,2. 1,2. 2,2,3,4. 1,4. 3,7. 1,8. 3,9. 3) ,2) 
dbRdd org. apache. spark. rdd. RDD[ Double] = ParallelCollectionRDD [94 ] at parallelize at < console 
> :37 
scala > dbRdd. sum 
res78 :Double = 44. 7 
scala > dbRdd. sumApprox( 1 ,0. 9) 
res79 ; org. apache. spark. partial. PartialResult | org. apache. spark. partial. BoundedDouble ] = ( partial: 
[ - Infinity , Infinity ] ) 
scala > dbRdd. sumApprox ( 1000 ,0. 9) 


res80 : org. apache. spark. partial. PartialResult [ org. apache. spark. partial. BoundedDouble ] = ( final: 
[ 44. 700 ,44. 700] ) 


JN. variance 
1. 定义 
def variance( ) :Double 
2. 功能 描述 
求 RDD 元 素 的 方差 。 
3. 示例 


scala > valdbRdd = sc. parallelize(List(1.1,1.2,2.1,2.2,2,3,4.1,4.3,7.1,8.3,9.3) ,2) 
dbRdd org. apache. spark. rdd. RDD[ Double] = ParallelCollectionRDD [95 ] at parallelize at < console 
> :37 
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scala > dbRdd. variance 
res82 : Double =7. 667768595041324 


"5. PairRDDFunctions| K, V] R & H2E BJ API 


详细 解析 PairRDDFunctions 的 一 些 聚 合 / 归 并 操作 的 API, £115 ageregateByKey, reduce- 
ByKey, foldByKey 等 。 
针对 Spark 1. 3 之 前 的 版 本 ， 以 下 所 有 案例 都 需要 先导 和 人 隐 式 转换 ， 如 下 : 


scala > import org. apache. spark. SparkContext. _ 
import org. apache. spark. SparkContext. _ 


但 当前 为 Spark 1.3 版 本 ， 隐 式 转换 的 方法 已 经 移入 RDD 伴生 对 象 中 ， 因 此 不 再 需要 导 
人 隐 式 转换 。 

—. aggregateByKey 

1. 定义 
def aggregateByKey[ U ] (zeroValue:U) (sed0p:(U,V) => U,combOp: (U,U) => U) (implicit arg0 : 
ClassTag[ U]) : RDD[ (K,U) ] 
def aggregateByKey [ U ] ( zeroValue : U , numPartitions ; Int) (seq0p: (U,V) => U,combOp: (U,U) => 
U) (implicit arg0 ; ClassTag[ U]) : RDD[ (K,U) ] 
def aggregateByKey [ U | ( zeroValue ;U , partitioner ; Partitioner) (seq0p: (U, V) => U,combOp:(U,U) = 
> U) (implicit arg0 : ClassTag[ U] ) : RDD[ (K,U) ] 


2. 功能 描述 
aggregateByKey ， 顾 名 思 义 ， 和 RDD 的 aggregate 方法 在 逻辑 上 的 功能 是 一 致 的 ， 只 是 ， 
这 里 聚合 操作 的 对 象 由 RDD 分 区 的 全 部 数据 变 成 了 PairRDDFunctions 分 区 中 按 key 分 组 后 
得 到 的 value 数据 集 。 
即 ，RDD 的 aggregate 与 PairRDDFunctions 的 aggregateByKey 这 两 个 API 的 差异 点 ， 就 在 
于 对 分 区 中 进行 聚合 时 ， 聚 合 的 目标 数据 集 不 同 。 
3. 示例 
案例 中 实现 作为 Key 值 的 单词 的 统计 功能 、 合 并 功能 ， 具 体 代码 及 结果 如 下 : 
scala > valzeroValue:Listl String] = Nil 
zeroValue ; List[ String | = List( ) 


// 这 里 的 函数 和 aggregate 都 是 一 样 的 ,只 是 作用 在 相同 Key 的 元 素 上 
scala > defseqOP( newValue ; List[ String] , elemValue : String) : List[ String] = | 


elemValue: : newValue 
| 
seqOP: (newValue: List[ String | , elemValue ; String) List[ String ] 
scala > defeombOp( partA ; List[ String ] , partB ; List[ String] ) :Listl String] = | 
partA ; ; ; partB 
| 
combOp:(partA:List[ String] ,partB ; List[ String ] ) List[ String ] 
// 注 意 ,之 前 的 版 本 , 隐 式 转换 定义 在 SparkContext FP ,所 以 需要 手动 导入 
//Spark 1.3 版 本 中 已 经 移 到 RDD 中 ,不 用 导入 也 可 以 正确 转换 成 PairRDDFunctions 
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scala > import org. apache. Spark. SparkContext. _ 

import org. apache. Spark. SparkContext. _ 

scala > valkvRdd = sc. parallelize ( List( (1," a"), (1," b"), (1," c"), (2,"b"),(2," c"), (3," 
d")),2) 

kvRdd : org. apache. Spark. rdd. RDD[ (Int, String) ] = ParallelCollectionRDD [0 ] at parallelize at < con- S 
sole > :24 

scala > kvRdd. aggregateByKey[ List[ String] ] (Nil) ( (a,b) => b::a,(la,lb) =>la:::lb). collect 

resO : Array | (Int, List[ String] ) ] = Array( (2, List( c, b) ) , (1, List(c,b,a) ) , (3,List(d) ) ) 


简化 ， 去 掉 zeroValue 的 定义 或 的 类 型 指定 : 


scala > kvRdd. aggregateByKey[ List[ String | ] ( Nil) (seqOP,combOp). collect 

res5 ; Array | (Int, List[ String] ) ] = Array( (2, List( c, b) ) , (1, List(c,b,a) ) , (3,List(d) ) ) 
scala > kvRdd. aggregateByKey( zeroValue) ( seqOP , combOp). collect 

res6 ; Array | (Int, List[ String] ) ] = Array( (2, List( c, b) ) , (1, List(c,b,a) ) , (3,List(d) ) ) 


进一步 简化 ， 去 掉 函 数 的 定义 : 
scala > kvRdd. aggregateByKey[ List[ String] ] (Nil) ( (a,b) =>b::a,(1,r) =>1:;:r). collect 
res7 ; Array | (Int, List[ String] ) ] = Array( (2, List( c, b) ) ,(1,List(e,b,a) ) ,(3,List(d) ) ) 

4. 示例 解析 

查看 aggregateByKey 的 签名 ， 可 以 看 出 下 面 两 个 aggregateByKey 比 第 一 个 增加 了 分 区 器 
信息 的 设置 ， 包 含 修改 分 区 器 的 分 区 个 数 ， 蔡 换 分 区 器 。 

为 了 重点 解析 aggregateByKey 的 功能 ， 我 们 以 第 一 个 aggregateByKey 方法 进行 案例 解析 ， 
在 案例 解析 之 后 ， 继 续 从 源码 角度 进一步 对 这 一 类 的 API 进行 详细 解析 。 

注意 : 但 当前 为 Spark 1.3 版 本 ， 不 需要 导入 隐 式 转换 。 

5. 扩展 内 容 

以 aggregateByKey 为 例 ， 介 绍 下 对 API 功能 的 推导 方法 。 通 过 对 参数 中 各 个 函数 进行 解 
析 ， 来 理解 该 API 的 功能 。 这 只 是 个 人 使 用 API 时 常用 的 一 种 推导 方法 ， 当 遇 到 问题 时 ， 建 
议 从 源码 角度 去 解析 。 
解析 过 程 是 通过 RDD 的 类 型 、 各 个 参数 函数 的 签名 ,以 及 最 终 API 的 返回 类 型 进行 推 
导 的 ， 这 种 推导 方式 可 以 应 用 在 各 种 APL 的 解析 上 ， 这 样 可 以 避免 阅读 源码 才能 理解 功能 的 
MEE, ERX) Spark API 的 学 习 效 率 。 

补充 : 当 推 导 A 方法 时 ， 如 果 已 经 熟悉 B 方 法， 同时 B 方法 又 调用 了 A 方法 时 ， 可 以 
结合 B 方法 的 理解 进行 推导 。 如 果 有 兴趣 ， 可 以 试 试 结合 aggregateByKey 方法 的 理解 ,来 推 
导 combineByKey 方法 。 

以 下 是 aggregateByKey 方法 的 详细 推导 过 程 : 

1) RDD 的 元 素 类 型 为 [K,V] Bil Key - Value 形式 的 二 元 组 类 型 ， 其 中 Key 的 类 型 为 
K, Value 的 类 型 为 V。 

2) 由 签名 可 知 ，aggregateByKey 方法 的 初始 值 zeroValue 类 型 为 U，seqOp 定义 为 (U,V) 
=>U, combOp 定义 为 (U,U) =>U， 最 终 返 回 RDD 的 元 素 类 型 为 [K,U]。 

3) Wt, 产生 的 类 型 变化 是 V =>U， 即 用 初始 值 zeroValue 来 归并 类 型 为 V 的 值 ， 得 
到 类 型 U 的 值 ， 对 应 操作 类 型 为 : (U,V) =>X (X 表示 未 知 类 型 ) ， 具 有 该 签名 的 只 有 se- 
qOp:(U,V) => U 函数 ， 因 此 第 一 步 归 并 操作 应 该 是 seqOp 对 zeroValue M RDD 元 素 的 Value 


进行 的 。 
4) 由 于 RDD 是 分 布 式 的 数据 集 ， 所 有 的 操作 应 


区 元 素 上 
的 值 。 


5) 到 这 


的 ， 也 就 是 


得 到 U 类 型 的 值 。 因 此 合并 的 操作 定义 应 该 是 (U,U) => U， 


定义 。 
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该 先 针 对 分 区 进行 ， 所 以 seqOp 是 在 分 


递归 地 进行 归并 ， 即 不 断 地 进行 (U,V) => 0 操作， 最 终 分 区 归并 结果 为 类 型 U 


一 步 ， 可 以 知道 各 个 分 区 都 返回 了 U 值 ， 而 aggregateByKey 是 对 整个 RD 
最 终 要 合并 各 个 分 区 的 结果 ， 这 时 候 就 是 对 U 类 型 的 元 素 集 合 进行 合并 ， 
参数 中 只 有 combOp 符 


D 进 
mA 
TM 
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通过 以 上 解析 ， 就 可 以 知道 ， 用 zeroValue 和 seqOp 对 分 区 进行 归并 ， 然 后 用 combOp 再 


对 分 区 归 


—、 


并 的 结果 数据 集 再 次 进行 归并 。 
combineByKey 


1. 定义 
def combineByKey[ C ] ( ereateCombiner; (V) => C,mergeValue: (C, V) =>C,mergeCombiners:(C,C) 


=>C):RDD[(K,C) ] 


def combineByKey| C ] ( ereateCombiner; (V) => C, mergeValue; (C, V) => C, mergeCombiners; ( C, C) 


=> C, numPattitions ; Int) ;RDD[ (K,C) ] 


def combineByKey| C ] ( ereateCombiner; ( V) => C, mergeValue; (C, V) => C,mergeCombiners; ( C, C) 
=> C, partitioner; Partitioner, mapSideCombine ; Boolean = true, serializer; Serializer = null) : RDD[ (K, 


C) 


2. 功能 描述 


在 每 个 partition 中 先 创建 初始 combiner (createCombiner) , 


后 将 当前 RDD 的 各 个 分 区 


的 数据 单元 逐个 输入 各 个 分 区 对 应 的 combiner 进行 处 理 ， partition 处 理 结束 后 ， 再 在 
mergeCombiner 中 将 各 个 partition 的 处 理 结果 进行 综合 处 理 。 


3. 示例 
案例 的 类 型 信息 : 
1) K: hto 


2) V: String, 
3) C; List [String], 


scala > valzeroValue ; List[ String] = Nil 

zeroValue ; List[ String | = List( ) 

// 这 是 为 mergeValue 构建 初始 值 的 函数 ,对 分 区 元 素 进行 mergeValue 操作 时 
// 第 一 次 mergeValue 要 使 用 该 限 数 将 分 区 的 元 素 转换 为 目标 类 型 


scala > defereateCombiner( zeroValue ; String) = List( zeroValue) 


createCombiner; ( zeroValue ; String) List[ String] 

// 下 面 的 函数 功能 和 ageregateByKey 中 的 函数 参数 是 类 似 的 

// 可 以 认为 combineByKey 是 通用 的 

// 可 以 提供 一 个 从 RDD 元 素 转换 为 初始 值 的 操作 来 代替 一 个 ZeroValue 初始 值 
//aggregateByKey 最 终 也 是 调用 这 个 通用 的 api 来 实现 的 

scala > def mergeValue( newValue: List[ String] ,elemValue ; String) : List[ String] = | 


| elemValue: :newValue 


| } 


mergeValue ; (newValue; List[ String | , elemValue ; String) List[ String | 
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scala > def mergeCombiners( partA ; List[ String | , partB ; List| String] ) : List[ String] = 
| partA ; : : partB. 
|] 
mergeCombiners : ( partA ; List[ String | , partB ; List[ String | ) List[ String] 
scala > val kvRdd = sc. parallelize ( List((1," a") , ( 1," b"), (1,"ce"),(2," b"),(2,"ce"),(3," 
d")),2) 
kvRdd : org. apache. spark. rdd. RDD[ (Int, String) ] = ParallelCollectionRDD| 16 ] at parallelize at < con- 
sole > :22 
scala > var combRdd = kvRdd. combineByKey( createCombiner , mergeValue , mergeCombiners ) 
combRdd: org. apache. spark. rdd. RDD[ (Int, List[ String] ) ] = ShuffledRDD| 17] at combineByKey at < 
console » :32 
scala > combRdd. collect 
res13 : Array | (Int, List[ String] ) ] = Array( (1,List(c,b,a) ) , (2, List( c,b) ) , (3,List(d) ) ) 


一 步 人 简化， 去 掉 函 数 的 定义 : 


scala > var combRdd = kvRdd. combineByKey ( List(_), (a; List[ String], b: String) => b::a, (1; List 
[ String ] , r; List| String] ) =>1:::r) 

combRdd: org. apache. spark. rdd. RDD[ (Int, List[ String] ) ] = ShuffledRDD| 19] at combineByKey at < 
console > :28 

scala > combRdd. collect 

res20 : Array | ( Int, List[ String] ) ] = Array((1,List(ec,b,a)),(2,List(ec,b)),(3,List(d) ) ) 


4. 示例 解析 

各 个 参数 以 及 返回 值 的 含义 如 下 : 

1) 使 用 createCombiner， 处 理 各 个 分 区 的 第 一 个 元 素 ， 得 到 类 型 为 C 的 新 值 。 

2) 使 用 mergeValue， 对 各 个 分 区 的 元 素 进行 merge， 对 由 createCombiner 得 到 的 输出 
值 ， 和 分 区 元 素 值 不 断 执 行 mergeValue， 最 后 得 到 分 区 的 归并 值 ， 类 型 为 C。 

3) 使 用 mergeCombiners , 对 上 一 步 得 到 的 各 个 分 区 的 归并 值 ， 再 次 进行 合并 ， 得 到 类 
型 为 C 的 值 。 

4) 最 后 ， 返 回 类 型 为 [(K,C) ] 。 

5. 应 用 场景 

该 API 将 大 数据 的 处 理 转变 为 对 小 数据 量 的 分 区 级 别 的 处 理 ， 然 后 合并 各 个 分 区 处 理 后 
ans 。 在 大 数据 量 对 处 理 的 性 能 影响 极 大 的 情况 下 ， 这 种 先 分 区 再 合并 的 模式 可 以 
极 大 提 性能 。 尤 其 是 在 各 个 分 区 聚合 后 的 数据 量 很 小 的 情况 下 。 

该 应 用 场景 适用 于 所 有 类 亿 的 聚合 操作 ， 比 如 调用 了 该 方法 的 aggregateByKey， 只 是 各 
自 聚 合 API 使 用 了 不 同 的 参数 ， 以 及 对 输入 输出 类 型 的 要 求 不 同 而 已 。 

如 果 查 看 源码 ， 可 以 看 到 内 部 有 mapPartitions 方法 的 调用 。 

二 、foldByKey 

1. 定义 

def foldByKey( zeroValue: V) (func; (V,V) => V) :RDD[ (K,V)] 


def foldByKey ( zeroValue ; V ,numPartitions ; Int) (func; (V, V) => V):RDD[(K,V) ] 
def foldByKey ( zeroValue ; V , partitioner; Partitioner) (func; (V, V) => V): RDD[ (K,V)] 


e 
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2. 功能 描述 

对 每 个 分 区 元 素 ， 基 于 相同 key 值 的 value 数据 集合 ， 进 行 fold 操作 。 参 数 zeroValue 为 
fold 操作 时 使 用 的 初始 值 。 

3. 示例 


// 通 过 模式 匹配 ,把 不 同情 况 下 的 两 个 字符 串 合 并 在 一 起 
// 这 里 可 以 增加 b 为“ "的 case, HIF RDD 元 素 都 非 空 ,这 里 仅 考 虑 zeroValue 24" 
scala > def func(a:String,b:String) :String = (a,b)match | 
| case("" ,b) =>b 
| case(a,b) =>s"$a $b" 
| | 
func: (a:String,b:String) String 
scala > val kvRdd = sc. parallelize ( List((1,"a"),(1,"b"),(1,"c"),(2,"b"),(2,"c"),(3," 
d")),2) 
kvRdd : org. apache. spark. rdd. RDD[ (Int, String) ] = ParallelCollectionRDD [20] at parallelize at < con- 
sole > :22 
scala > kvRdd. foldByKey ( " " ) ( func , ). collect 
res2] ; Array[ (Int, String) ] = Array( (1,a b c) ,(2,b c) ,(3,d) ) 


简化 ， 去 掉 函 数 的 定义 : 
scala > kvRdd. foldByKey("" ) | case("",b) =>b 
| case(a,b) =>s"$a $b" 
| }. collect 
res22; Array[ (Int, String) ] = Array((1,a b c) ,(2,b c),(3,d)) 
4. 示例 解析 
可 以 将 RDD 的 Value 类 型 V 转换 为 其 他 类 型 C。 
. reduceByKey 
1. 定义 
def reduceByKey(func:(V,V) => V)  RDD[ (K, V) ] 
def reduceBy Key ( partitioner ; Partitioner func; (V, V) => V)  RDD[ (K,V) ] 
def reduceByKeyLocally (func; ( V, V) => V) :Map[ K, V] 
2. 功能 撒 述 
对 每 个 分 区 元 素 ， 基 于 相同 key 值 的 value 数据 集合 ， 进 行 func 操作 。 与 fold 相 比 ， 该 


方法 没有 提供 zeroValue 初始 值 。 由 于 没有 初始 值 ， 当 某 key 的 value 只 有 一 个 值 时 ，funce 是 
不 会 执行 的 。 


3. 示例 
1) 示例 1: 单词 统计 。 


scala > val kvRdd = sc. parallelize(List(("a" ,1) , ("b",1),("c",1),("b",1),("c",1), ("d" , 
1)),2) 

kvRdd : org. apache. spark. rdd. RDD[ (String, Int) ] = ParallelCollectionRDD [54] at parallelize at < con- 
sole > :25 

上 和 reduce 功能 类 似 , 只 是 作用 在 相同 key 值 的 元 素 上 ,这 里 的 归并 操作 为 求 和 操作 

scala > kvRdd. reduceByKey(_ + _). collect 
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res35 ; Array[ (String, Int) ] = Array( (a,1),(b,2),(c,2),(d,1)) 
2) 示例 2: 合并 相同 Key 值 的 value, 


scala > def func(a:String,b:String) :String = (a,b)match | 
| case("" ,b) =>b 
| case(a,b) =>s"$a $b" 
| 1 
func: (a:String, b; String) String 
scala > val kvRdd = sc. parallelize ( List((1," a") , ( 1," b"), (1," c"), (2," b"), (2,"e"),(3," 
d")),2) 
kvRdd : org. apache. spark. rdd. RDD[ (Int, String) ] = ParallelCollectionRDD [56] at parallelize at < con- 
sole > :25 
scala > kvRdd. reduceByKey( func _). collect 
res36 ; Array [ ( Int, String) ] = Array( (1,a b c) ,(2,b c) ,(3,d)) 


进一步 简化 ， 去 掉 函 数 的 定义 : 
scala > kvRdd. reduceByKey| case("",b) =>b 
| case(a,b) =>s"$a $b" 


| \. collect 


res5 ; Array[ (Int,String) ] = Array((1,a b c) ,(2,be) ,(3,d)) 


4. 示例 解析 
在 reduce 时 ， 只 能 得 到 相同 类 型 的 结果 。 


"5. RDD 相互 间 操作 的 API 


RDD 整合 其 他 RDD 的 API, cartesian, union 等 。 
一 、cartesian 
1. 定义 
def cartesian[ U] ( other; RDD[ U] ) (implicit arg0 ; ClassTag[ U] ) : RDD[ ( T,U) ] 


2. 功能 描述 
求 两 个 RDD 的 第 卡尔 积 。 
3. 示例 


scala > val strRdd = sc. parallelize( List[ String] ("a","b","c","c","e" ) ,2) 

strRdd ; org. apache. spark. rdd. RDD [ String] = ParallelCollectionRDD [ 25] at parallelize at < console 
> :22 

scala > val intRdd = sc. parallelize( List[ Int] (1,2,3,4,5,6) ,2) 

intRdd : org. apache. spark. rdd. RDD[ Int] = ParallelCollectionRDD[ 26 ] at parallelize at < console > :22 
scala > val strRdd = sc. parallelize( List(" a" ," b" ," c" ," e" ," e") ,2) 

strRdd : org. apache. spark. rdd. RDD [ String] = ParallelCollectionRDD [ 27 ] at parallelize at < console 
> :22 

scala » val intRdd = sc. parallelize( List(1,2,3,4,5,6) ,2) 

intRdd : org. apache. spark. rdd. RDD[ Int] = ParallelCollectionRDD[ 28 ] at parallelize at < console > :22 
// 这 里 使 用 了 操作 符 的 调用 方式 ,类 似 于 +、- 操作 ,不 用 . 来 调用 函数 
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scala > val first = strRdd cartesian intRdd 

first :org. apache. spark. rdd. RDD[ (String, Int) ] = CartesianRDD[ 29 ] at cartesian at < console > :26 
scala > val second = intRdd cartesian strRdd 

second: org. apache. spark. rdd. RDD[ (Int, String) ] = CartesianRDD[ 30] at cartesian at < console > :26 


scala > first. collect 

res24 ; Array [ (String, Int) ] = Array( (3,1) ,(a,2) ,(a,3) , (b, 1) ,(b,2),(b,3),(a,4) ,(a,5) , (a, 
6) ,(b,4) ,(b,5),(b,6),(e,1),(6,22, (06,32, (6,1), (6,2), (6,3) (6,1), (6,2), (6,3) (c, 
4) ,(e,5),(e,6),(06,4),(0,5),(0,6), (6,4), (6,5) ,Ce,6) ) 

scala > second. collect 

res25 ; Array [ (Int, String) ] = Array( (1,3) , (1,b),(2,a3) ,(2,b),(3,a3), (3, b), (1,0) , (1,0) , (1, 
e) ,(2,0),(2,0),(2,e),(3,0), (3,0), (3,0), (4,3) (4, b) , (5,2), (5,b),(6,a), (6, b) , (4, 
€),(4,0),(4,e),(5,0),(5,0),(5,0),(6,0),(6,0),(6,0)) 


Z., union 
1. 定义 


def union( other; RDD[ T] ) : RDD[ T] 


2. 功能 描述 
两 个 RDD 的 联合 操作 ， 即 合并 两 个 RDD 的 元 素 到 一 个 RDD 中 。 
3. 示例 


scala > valleftRdd = sc. parallelize( List( " a" ," b" ," c") ,2) 

leftRdd : org. apache. spark. rdd. RDD[ String] = ParallelCollectionRDD [ 31 ] at parallelize at < console 
> :22 

scala > val rightRdd = sc. parallelize( List( "c" ," e") ,1) 

rightRdd ; org. apache. spark. rdd. RDD[ String] = ParallelCollectionRDD [ 32 ] at parallelize at < console 
> :22 

scala > leftRdd. union( rightRdd). collect 

res26 ; Array [ String] = Array (a,b,c,c,e) 

scala » ( leftRdd union rightRdd). collect 

res27 ; Array [ String] = Array(a,b,c,c,e) 


4. 示例 解析 

在 union 操作 中 ; 是 不 会 进行 去 重 的 。 

查看 union 操作 的 分 区 变化 ， 对 两 个 RDD 进行 联合 后 ， 得 到 的 新 RDD 的 分 区 数 为 这 两 
个 RDD 的 分 区 数 之 和 ， 代 码 如 下 : 


// 如 果 对 分 区 感 兴趣 的 话 ,可 以 通过 下 面 这 种 方式 

// 查 看 各 种 转换 操作 后 的 分 区 数 变 化 

//union 实际 就 是 将 父 依赖 RDD 的 所 有 分 区 合并 

// 成 自己 的 各 个 分 区 ,最 终 的 分 区 和 父 依赖 RDD 的 分 区 是 一 一 对 应 的 

scala > leftRdd. partitions. size 

res4 : [nt =2 

scala » rightRdd. partitions. size 

res5 :Int =1 

//1E X ,leftRdd. union(rightRdd) 和 先 定义 一 个 var a = leftRdd. union( rightRdd) 
// 然 后 使 用 的 效果 是 一 样 的 ,如 果 没 有 缓存 ,都 是 从 源 数据 重新 计算 RDD fff 
scala > leftRdd. union( rightRdd). partitions. size 

res6 : Int 2-3 
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三 、zip 家 族 的 API 

定义 
def zip[ U] (other; RDD[ U] ) (implicit arg0 ; ClassTag[ U] ) : RDD[ (T,U) ] 
def zipPartitions[ B, C,D, V ] (rdd2;RDD[ B] ,rdd3;RDD[ C] ,rdd4;RDD[ D] ) (f: (Iterator[ T ] , Iterator > 
[ B] ,Iterator[ C] ,Iterator[ D] ) => Iterator[ V ] ) (implicit arg0;ClassTag[ B ] , argl : ClassTag| C ] , arg2 : 
ClassTag[ D ] ,arg3 : ClassTag| V] ) : RDD[ V] 
def zipPartitions[ B, C, D, V ] ( rdd2; RDD[ B] , rdd3; RDD [ C] , rdd4 : RDD[ D] , preservesPartitioning: 
Boolean) (f: ( Iterator[ T ] , Iterator[ B] , Iterator[ C ] , Iterator[ D]) 2» — lHterator[ V ] ) (implicit arg0 : 
ClassTag[ B ] ,argl ;ClassTag[ C] , arg2 : ClassTag[ D ] ,arg3 : ClassTag| V] ) : RDD[ V] 
def zipPartitions[ B, C, V ] (rdd2; RDD[ B] ,rdd3: RDD[ C] ) (f: ( Iterator[ T ] , Iterator[ B ] , Iterator[ C ] ) 
=> Iterator[ V ]) (implicit arg0 ;ClassTag[ B ] , argl : ClassTag[ C ] ,arg2: ClassTag[ V] ) : RDD[ V] 
def zipPartitions| B, C, V ] (rdd2; RDD[ B ) ,rdd3; RDD[ C ] , preservesPartitioning ; Boolean ) ( f; (Iterator 
[T] ,Iterator[ B ] ,Iterator[ C] ) => Iterator[ V ] ) (implicit arg0 : ClassTag[ B ] , arg] : ClassTag| C ] , arg2 : 
ClassTag[ V ]) : RDD[ V] 
def zipPartitions[ B, V ] (rdd2; RDD[ B ] ) (f: ( Iterator[ T] , Iterator[ B] ) => Iterator[ V ] ) (implicit arg : 
ClassTag[ B ] ,argl ; ClassTag[ V] ) : RDD[ V] 
def zipPartitions[ B, V ] (rdd2: RDD[ B ] , preservesPartitioning: Boolean ) ( f: ( Iterator[ T ] , Iterator[ B ] ) 
=> Iterator[ V ] ) (implicit arg0 ; ClassTag[ B] , arg] ; ClassTag[ V] ) : RDD[ V] 
def zipWithIndex( ) : RDD[ ( T, Long) ] 
def zipWithUniqueld( ) : RDD[ ( T, Long) ] 


(—) zip 
1. 功能 描述 
拉链 操作 ， 将 两 个 RDD 中 第 i 个 元 素 组 成 一 个 元 组 ， 形 成 Key - Value 形式 的 二 元 组 类 
型 的 PairRDD。 
2. 示例 
scala » val kRdd =sc. parallelize(1 to 4,2) 
kRdd : org. apache. spark. rdd. RDD| Int] = ParallelCollectionRDD[ 24 | at parallelize at < console > :22 
scala » val vRdd — - sc. parallelize(" a b c d". split(" "),2) 
vRdd:org. apache. spark. rdd. RDD[ String] = ParallelCollectionRDD[ 25 ] at parallelize at < console > :22 
scala > kRdd. zip( vRdd). toDebugString 
res27 : String = 
(2) ZippedPartitionsRDD2 [ 26 ] at zip at < console > :27 [ | 
| ParallelCollectionRDD(| 24 ] at parallelize at < console > :22 [ ] 
| ParallelCollectionRDD[ 25 ] at parallelize at < console > :22 [ ] 
scala > kRdd. zip( vRdd). collect 
res28 ; Array| ( Int, String) ] = Array((1,a),(2,b),(3,c),(4,d) ) 


zip 操作 时 ， 对 应 分 区 的 个 数 需 一 致 ， 否 则 会 报 以 下 错误 ; 


// 这 里 修改 了 分 区 数 
scala » val kRdd =sc. parallelize(1 to 2,1) 
kRdd : org. apache. spark. rdd. RDD| Int] = ParallelCollectionRDD[ 28 | at parallelize at < console > :22 
scala » kRdd. zip( vRdd). toDebugString 
java. lang. IllegalArgumentException : Can’ t zip RDDs with unequal numbers of partitions 
at org. apache. spark. rdd. ZippedPartitionsBaseRDD. getPartitions( ZippedPartitionsRDD. scala :57 ) 
at org. apache. spark. rdd. RDD $$anonfun $ partitions $2. apply ( RDD. scala ;219) 
at org. apache. spark. rdd. RDD $$anonfun $ partitions $2. apply ( RDD. scala ;217) 
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at scala. Option. getOrElse( Option. scala ; 120 ) 

at org. apache. spark. rdd. RDD. partitions ( RDD. scala:217 ) 

at org. apache. spark. rdd. RDD. firstDebugString $1 ( RDD. scala;1479) 
at org. apache. spark. rdd. RDD. toDebugString( RDD. scala ;1512) 


zip 操作 时 ， 对 应 各 个 分 区 的 元 素 个 数 需 一 致 ， 否 则 会 报 以 下 错误 


scala » val kRdd =sc. parallelize(1 to 8,2) 

kRdd : org. apache. spark. rdd. RDD[ Int] = ParallelCollectionRDD[ 11 ] at parallelize a 

t < console > :22 

scala > ( kRdd zip vRdd). collect 

15/04/30 00:43:05 ERROR Executor : Exception in task 0.0 in stage 2. O( TID 5) 

org. apache. spark. SparkException; Can only zip RDDs with same number of elements 
in each partition 


at org. apache. spark. rdd. RDD $$anonfun $zip $1 $$anon $1. hasNext( RDD. scala ;746 


) 
at scala. collection. Iterator $class. foreach( Iterator. scala ;727 ) 
at org. apache. spark. rdd. RDD $$anonfun $zip $1 $$anon $1. foreach ( RDD. scala; 742 
) 
3. 示例 解析 


zip 方法 可 以 将 元 素 类 型 不 同 的 RDD 进行 拉链 操作 ， 需 要 注意 的 是 ， 当 拉链 操作 时 的 两 
边 的 元 素 个 数 需要 保持 一 致 。 

( —) zipPartitions 

功能 与 zip 类 似 , 但 是 提供 了 更 多 方式 的 zipo 

以 下 面 这 个 API 进行 案例 解析 : 


def zipPartitions| B, C, V ] (rdd2:RDD[ B] ,rdd3: RDD[ C] ) (f: (Iterator[ T ] , Iterator[ B | ,Iterator[ C ] ) 
=> Iterator[ V ] ) (implicit arg0 : ClassTag[ B ] , argl : ClassTag[ C | , arg2 : ClassTag[ V] ) :RDD[ V | 


1. 功能 描述 

将 当前 RDD 和 rdd2, rdd3 进行 拉链 操作 ， 有 具体 的 操作 由 指定 。 

2. 示例 
scala > val a = sc. parallelize(O to 4,2) 
a:org. apache. spark. rdd. RDD[ Int | = ParallelCollectionRDD[31 ] at parallelize at < console > :22 
scala > val b = sc. parallelize( List( " a" ," b" ," c" ," d") ,2) 
b:org. apache. spark. rdd. RDD[ String] = ParallelCollectionRDD [32 ] at parallelize at < console > :22 
scala > val c =sc. parallelize( List( !' ',  ', 48, 8$) ,2) 
c : org. apache. spark. rdd. RDD[ Char] = ParallelCollectionRDD[ 33 | at parallelize at < console > :22 
// fll zip 功能 是 类 似 的 ,只 是 作用 在 两 个 要 zip 的 分 区 数据 集 , 即 Iterator 上 
scala > def zipFunc ( alter; Iterator[ Int ] , blter: Iterator [ String | , clter: Iterator[ Char ] ) ; Iterator | String | 


=| 


| var res = List| String] ( ) 
| while( alter. hasNext&& blter. hasNext&& clter. hasNext) | 
| 


val x = alter. next +" " +blter. next +" " + clter. next 


TeS::—X 
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| 
| 
| res. iterator 
E 

zipFunc : ( alter ; Iterator|[ Int | , blter: Iterator[ String | ,elter:Iteratorl Char | ) Iterator[ String | © 
scala > a. zipPartitions( b,c) ( zipFunc ). collect 
res32 ; Array[ String] = Array( 1 b @ ,0 a !,3 d$,2 c #) 
scala > a. zipPartitions( b,c) ( zipFunc ). collect 
res32 ; Array[ String] = Array( 1 b @ ,0 a !,3 d$,2 c #) 
scala > a. zipPartitions( b,c) ( zipFunc). toDebugString 
res33 : String = 
(2) ZippedPartitionsRDD3[ 35 | at zipPartitions at < console > :31 | | 

| ParallelCollectionRDD[31 ] at parallelize at < console > :22 [ ] 
| ParallelCollectionRDD[ 32 | at parallelize at < console > :22 [ ] 

ParallelCollectionRDD[| 33 ] at parallelize at < console > :22 [ ] 


3. 示例 解析 

前 面 提 到 过 ，RDD 是 一 个 分 布 式 的 数据 集 ， 对 它 的 操作 是 以 分 区 为 单位 进行 并 行 计 算 
的 。 因 此 ， 这 里 提供 的 f£. (Iterator[T] , Iterator[ B ] ,Iterator[C]) => lterator[ V] ) 应 该 对 应 于 
拉链 操作 的 三 个 RDD 的 各 个 分 区 的 Iterator[X] (X 表示 T、B、C)。 

即 对 三 个 RDD 的 第 i 个 分 区 进行 1 操作， 得 到 新 的 分 区 的 Ierator[ V] 。 

(三 ) zipWithUniqueId 

1. 功能 描述 

当前 RDD 元 素 进行 拉链 操作 时 ， 操 作对 象 为 元 素 和 元 素 的 索引 值 ， 从 0 开始 。 

2. 示例 


scala » val vRdd =sc. parallelize(" a b c d". split(" "),2) 
vRdd : org. apache. spark. rdd. RDD[ String] = ParallelCollectionRDD[ 36 | at parallelize at < console > :22 
scala » vRdd. zipWithUniqueld. collect 
res34 : Array | (String, Long) ] = Array( (3,0) ,(b,2) ,(c,1) ,(d,3) ) 
scala » vRdd. zipWithUniqueld. toDebugString 
res35 : String = 
(2) MapPartitionsRDD| 38 | at zipWithUniqueld at < console > :25 [ ] 
| ParallelCollectionRDD[ 36 ] at parallelize at < console > :22 [ ] 


分 区 个 数 不 同 时 : 


scala » val vRdd — — sc. parallelize(" a b c d e". split(" "),2) 
vRdd:; org. apache. spark. rdd. RDD[ String] = ParallelCollectionRDD[ 40 ] at parallelize at < console > :22 
scala » vRdd. zipWithUniqueld. toDebugString 
res36 : String = 
(2) MapPartitionsRDD[ 41 ] at zipWithUniqueld at < console > :25 [ ] 
| ParallelCollectionRDD[ 40 ] at parallelize at < console > :22 [ ] 
scala > vRdd. zipWithUniqueld. collect 
res37 ; Array | ( String, Long) | = Array( (a,0),(b,2) ,(c,1) ,(d,3),(e,5) ) 


3. 示例 解析 
该 操作 是 对 RDD 元 素 及 其 标号 进行 拉链 操作 ， 因 此 对 分 区 个 数 没有 什么 限制 。 
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| Ew PairRDDFunctions[ K,V] 间 的 相关 API ) 


一 、Join 家 族 的 API 
1. 定义 
def fullOuterJoin [ W ] ( other: RDD [ CK, W) ] , numPartitions : Int ) : RDD [ CK, ( Option [ V ] , Option 
[W]))] 
def fullOuterJoin[ W ] (other; RDD[ (K, W) ]) : RDD[ (K, ( Option[ V] , Option[ WJ ) ) J 
def fullOuterJoin[ W ] (other; RDD[ ( K, W) ] , partitioner; Partitioner ) : RDD[ ( K, ( Option [ V ] , Option 
[W]))] 
def leftOuterJoin[ W ] ( other; RDD[ (K, W) ] , numPartitions : Int) : RDD[ (K,(V, Option[ W] ) ) ] 
def leftOuterJoin[ W ] ( other; RDD[ (K,W) ]) : RDD[ (K, ( V, Option[ W])) ] 
def leftOuterJoin[ W ] (other; RDD[ (K, W) ] , partitioner; Partitioner) ; RDD[ (K, (V , Option W])) ] 
def rightOuterJoin[ W ] ( other; RDD[ (K, W) ] , numPartitions ; Int) : RDD[ ( K, ( Option[ V] ,W) ) J 
def rightOuterJoin[ W ] (other; RDD[ (K, W) ]) : RDD[ (K, (Option| V] ,W)) ] 
def rightOuterJoin[ W ] (other; RDD[ (K, W) ] , partitioner; Partitioner) : RDD[ (K, (Option[ V] ,W) ) ] 
def join[ W ] (other: RDD[ ( K, W) ] ,numPartitions ; Int) : RDD[ (K, (V, W)) ] 
def join[ W ] (other: RDD[ (K,W) ]):RDD[(K,(V,W) ) J 
def join[ W ] (other; RDD[ ( K,W) ] , partitioner; Partitioner) : RDD[ (K,(V,W) ) ] 


2. 功能 描述 

对 两 个 RDD 进行 join 操作 ， 包 括 全 外 联 、 左 外 联 、 右 外 联 以 及 join; 
3. 示例 

案例 使 用 的 类 型 信息 : 


1) leftRdd:RDD[ String,Int] | —— (name,age)， 即 元 素 类 型 为 元 组 ， 元 组 包含 名 字 和 
年 龄 。 
2) rightRdd:RDD[ String,Char] -- (name,gender:f/m)， 即 元 素 类 型 为 元 组 ， 元 组 包 


含 名 字 和 性 别 ， 性 别 由 ff 或 m 表示 ， 分 别 对 应 female 和 male, 
scala > val leftRdd = sc. parallelize( List( ("Tom" ,21),("Jerry" ,31),("Mary" ,23) )) 
leftRdd : org. apache. Spark. rdd. RDD[ ( String, Int) ] = ParallelCollectionRDD [ 36 ] at parallelize at < 
console » :22 
scala > val rightRdd = sc. parallelize( List( ( " Tom"', m ) , (" Mary", F ) , ("Henry"', m ))) 
rightRdd : org. apache. Spark. rdd. RDD[ (String, Char) ] = ParallelCollectionRDD [ 37 | at parallelize at < 
console » :22 
scala > leftRdd. join( rightRdd). collect 
res31 : Array| (String, (Int, Char) ) ] = Array( (Mary, (23,£) ) , (Tom, (21,m))) 
scala > leftRdd. fullOuterJoin( rightRdd ). collect 
res32 ; Array | (String, ( Option[ Int] ,Option[ Char] ) ) ] = Array( ( Mary, (Some(23) , Some(f) ) ) , ( Jer- 
ry , (Some(31) , None) ) , ( Henry, ( None, Some( m) ) ) , ( Tom, (Some(21) 
,Some(m) ) ) ) 
scala > leftRdd. leftOuterJoin( rightRdd). collect 
res33 : Array | (String, (Int, Option[ Char] ) ) ] = Array ( (Mary, (23, Some( f) ) ) , (Jerry, (31, None) ) , 
(Tom, (21,Some( m) ) ) ) 
scala > leftRdd. rightOuterJoin( rightRdd). collect 
res34 ; Array | (String, ( Option[ Int] , Char) ) ] = Array ( (Mary, (Some(23) ,f) ) , (Henry, (None,m)) , 
(Tom, (Some(21) ,m) ) ) 
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4. 示例 解析 
查看 各 操作 后 RDD 元 素 类 型 的 变化 ， 如 下 所 示 : 
1) fullOuterJoin; RDD| K, V] fullOuterJoinRDD[ K, W] => RDD[ K, (Option [ V ] , Option 
[W])]. c | 
2) leftOuterJoin; RDD[ K,V] leftOuterJomRDD[ K,W] =>RDD[K,(V,Option[ W]) ]. d 
3) rightOuterJoin; RDD[ K,V ] rightOuterJoinRDD| K,W] => RDD[ K,(Option| V], W) ], 
4) Join;RDD[K, V] join RDD[K,W] => RDD[K,(V, W) ], 
其 中 ， 当 类 型 为 Option[V] 时 ， 表 示 该 V 类 型 的 值 有 两 种 状态 ，Some[V] 或 None， 可 以 
结合 元 素 类 型 是 否 为 Option[ V] 来 解析 全 外 联 、 左 外 联 、 右 外 联 操作 的 含义 ， 即 是 不 是 包含 
了 关联 缺失 的 输出 。 
5. 扩展 知识 
Join 类 型 有 :，cross join, inner join, left outer join, right outer join, full outer join, 
首先 都 是 基于 cross join (FRIRE), AJE inner join, FETA E ZRGE TAB Zi HR 4E 
中 去 掉 不 符合 连接 条 件 的 行 。left outer join 是 在 inner join 的 结果 集 上 再 加 上 左 表 中 没 被 
选 上 的 行 ， 同 时 行 的 右 表 部 分 的 每 个 字段 都 用 NULL JE. right outer join 是 在 inner join 
的 结果 集 上 再 加 上 右 表 中 没 被 选 上 的 行 ， 同 时 行 的 左 表 部 分 的 每 个 字段 都 用 全 用 NULL 
填充 。 


2. 3. 8 OrderedRDDFunctions| K, V ,P < : Product2 
[K,V]] 常 用 的 API 


包含 两 个 API: sortByKey 和 repartitionAndSortWithinPartitions。 
—. sortByKey 
1. 定义 
def sortByKey( ascending ; Boolean = true , numPartitions ; Int = self. partitions. size) : RDD[ (K,V) | 
2. 功能 描述 
这 个 方法 按 Key 进行 排序 ， 并 输出 新 RDD。 


3. 示例 
scala > val kvRdd = sc. parallelize ( List((3," a") , (7,"b"),(5,"c"),(3,"b"),(6,"c"),(9," 
d")),3) 
kvRdd :org. apache. Spark. rdd. RDD[ (Int,String) | = ParallelCollectionRDD[ 50] at parallelize at < con- 
sole > :22 


scala > kvRdd. sortByKey( ). collect 

res35 : Array | ( Int,String) ] = Array( (3,3) ,(3,b),(5,c) ,(6,c) ,(7,b) ,(9,d) ) 
scala » kvRdd. sortByKey( true). collect 

res36 ; Array | ( Int,String) ] = Array( (3,3) ,(3,b),(5,c) ,(6,c) ,(7,b) ,(9,d) ) 
scala > kvRdd. partitions. size 

res37 : Int =3 

scala > kvRdd. sortByKey (false ,2 ). partitions. size 

res38 : Int =2 
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Z, repartitionAndSortWithinPartitions 
1. 定义 
def repartitionAndSortWithinPartitions( partitioner:Partitioner) : RDD[ (K,V) ] 


2. 功能 描述 
这 个 方法 使 用 指定 的 Partitioner 对 RDD 重新 分 区 ， 并 且 在 各 个 分 区 内 按 key 对 元 素 进行 
排序 ， 然 后 输出 新 RDD。 
3. 示例 
scala > val kvRdd = sc. parallelize ( List ((3," a"), (7," b"),(5,"c"),(3,"b"),(6," c"), (9," 
d")),3) 
kvRdd :org. apache. Spark. rdd. RDD[ ( Int,String) ] = ParallelCollectionRDD[ 62 ] at parallelize at < con- 
sole > :37 
//[ 导 人 分 区 器 
scala > import org. apache. Spark. HashPartitioner 
import org. apache. Spark. HashPartitioner 
scala > val rpRdd = kvRdd. repartitionAndSortWithinPartitions (new HashPartitioner(2.) ) 
rpRdd: org. apache. Spark. rdd. RDD[ (Int, String) ] = ShuffledRDD[ 63 ] at repartitionAndSortWithinPar- 
titions at < console > :39 
// BAT HashPartitioner( 2) 中 是 通过 以 key 对 分 区 数 取 模 的 
// 所 以 奇数 和 偶数 就 分 发 到 两 个 分 区 上 了 ,在 查看 排序 时 需要 注意 如 何 分 区 
//[ 可 以 引入 第 二 个 偶数 key, 然 后 查看 分 区 内 的 元 素 的 排序 
scala > rpRdd. collect 
res55 : Array[ ( Int,String) ] = Array( (6,c),(3,a),(3,b),(5,c),(7,b),(9,d)) 
scala > kvRdd. partitions. size 
res56 :Int =3 
scala > rpRdd. partitions. size 
res57 :Int =2 
// 为 了 更 方面 查看 分 区 内 的 排序 ,修改 偶数 key 的 元 素 
scala > valkvRdd = sc. parallelize( List( (3," a" ),(7,"b"),(5,"c"),(4,"b 
),(6,"c"),(9,"d")),3) 
kvRdd :org. apache. Spark. rdd. RDD[ (Int,String) ] = ParallelCollectionRDD[ 33 ] at p 
rallelize at < console > :23 
scala» val rpRdd = kvRdd. repartitionAndSortWithinPartitions( new HashPartitione 
(2)) 
rpRdd : org. apache. Spark. rdd. RDD[ (Int, String) ] = ShuffledRDD[ 34] at repartition 
ndSortWithinPartitions at < console > :25 
// 奇 数 和 偶数 两 个 分 区 都 已 经 排序 
scala > IpRdd. collect 
res37 :Array[ (Int,String) ] = Array( (4,b),(6,c),(3,a),(5,c),(7,b),(9,d)) 


Spark 应 用 程序 构建 


由 于 在 Windows 7 FHE Linux 系统 的 构建 过 程 更 容易 出 现 问题 ， 这 里 选择 用 Windows 7 
系统 进行 构建 。 
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(CULO 基于 SBT 构建 Spark 应 用 程序 的 实例 


本 节 简 单 介绍 了 基于 文本 编辑 工具 编写 代码 ， 然 后 使 用 SBT 进行 Spark 应 用 程序 的 构建 > 


当前 环境 : Windows 7, Cygwin, Cygwin 的 安装 可 以 参考 网 络 资源 ， 如 果 是 在 Linux 环境 


下 ， 直 接 打开 终端 进行 相似 的 操作 即 可 。 
1. 首先 ， 打 开 Cygwin Terminal ， 进 入 应 用 程序 所 在 的 目录 


lenovo€ lenovo - Pe ~ 
$cd/cygdrive/e/bd/project/ 


注意 : 目录 要 以 /cygdrive 开头。 
2. 以 默认 的 格式 生成 目录 结构 
lenovo? lenovo — PC/cygdrive/e/bd/project 
$mkdirTestProject 
$ls 
SimpleAppProjectTestProject 
lenovo? lenovo — PC/cygdrive/e/bd/ project 
$cdTestProject/ 
lenovo? lenovo — PC/cygdrive/e/bd/project/TestProject 
$mkdir src 
lenovo? lenovo — PC/cygdrive/e/bd/project/TestProject 
$mkdir src/main 
lenovo? lenovo — PC/cygdrive/e/bd/project/TestProject 
$mkdir src/main/scala 


lenovo? lenovo — PC/cygdrive/e/bd/project/TestProject 
$find . 


. /src 
. /src/ main 


. /src/ main/scala 


3. 进入 scala 目录 ,编辑 文件 SimpleApp. scala 
lenovo? lenovo — PC/cygdrive/e/bd/project/TestProject 


$cd src/main/scala 
lenovo? lenovo — PC/cygdrive/e/bd/project/TestProject/src/main/scala 
$vimSimpleApp. scala 


进入 vim 编辑 界面 后 ， 输 入 i， 开 始 输入 代码 : 


/ * SimpleApp. scala */ 
import org. apache. spark. SparkContext 
import org. apache. spark. SparkContext. _ 
import org. apache. spark. SparkConf 
objectSimpleApp | 
def main( args; Array [ String] ) | 
val logFile = " YOUR, Spark HOME/README. md" // Should be some file on your system 


编辑 


ik: 
4. 
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val conf = newSparkConf( ). setAppName("Simple Application" ) 


val sc = newSparkContext( conf) 

val logData = sc. textFile(logFile,2). cache( ) 

val numAs = logData. filter( line => line. contains( " a" ) ). count( ) 
val numBs - logData. filter( line 2» line. contains( " b" ) ). count( ) 


printIn( " Lines with a:%s, Lines with b:96s". format( numAs , numBs) ) 


| 


完成 后 ， 按 【Esc】 键 ， 退 出 编辑 状态 ， 然 后 输入 :wd 或 :x 保存 文件 。 
这 部 分 代码 来 自 官 网 案例 。 
返回 到 应 用 程序 目录 ， 编 辑 sbt 构建 文件 simple. sbt 


name; =" Simple Project" 

version; ="1.0" 

scalaVersion; = "2. 10. 4" 

libraryDependencies + =" org. apache. spark" 9696 "spark — core" 96 "1.3.0" 


注意 .构建 文件 simple. sbt 必须 放 在 src 同 级 目录 下 ， 否 则 编译 时 会 报 如 下 错误 : 


[ info] Compiling 1 Scala source to E: \bd\project\TestProject\target \scala —2. 11\classes. . . 

[ error] E: \bd\project\TestProject \sre \main \scala\SimpleApp. scala: 2: object apache is not a member 
of package org 

[ error] import org. apache. spark. SparkContext 

[ error ] 7 

[ error] E: \bd\project\TestProject \src \ main \scala\SimpleApp. scala:3 :object apache is not a member 
of package org 

[ error] import org. apache. spark. SparkContext. _ 

[ error | 

[ error] E: \bd\project\TestProject \src \ main \scala\SimpleApp. scala :4 object apache is not a member 
of package org 

[ error] import org. apache. spark. SparkConf 

[ error | 5 

[ error] E: \bd\project\TestProject \sre \main VscalaVSimpleApp. scala ;9 : not found: type SparkConf 
[ error | val conf = newSparkConf( ). setAppName( "Simple Application" ) 

[ error | E 

[ error] E: \bd\project\TestProject \sre \main \scala\SimpleApp. scala ; 10 ; not found ; type SparkContext 
[ error ] val sc = newSparkContext( conf) 

[ error ] ^ 

[ error] 5 errors found 

[ error | ( compile ; compile) Compilation failed 

[ error] Total time: 9s, completed 2015 -4 -3 3:06: 11 


5. 查看 目录 结构 


lenovo? lenovo — PC/cygdrive/e/bd/project/TestProject 
$find . 


. /simple. sbt 
. / src 


. /src/ main 
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. / src/ main/scala 


. /src/ main/scala/SimpleA pp. scala 


构建 文件 simple. sbt 必须 与 sre 在 同 级 目录 下 。 目 录 结 构 完 整 ， 开 始 使 用 SBT 进行 构建 。 E 
6. 使 用 sbt package 命令 打包 应 用 程序 © 


lenovo@ lenovo — PC /cygdrive/e/bd/ project/TestProject 


$sbt package 

[ info] Loading globalplugins from C: VUsers Menovo V. sbt\0. 13 plugins 

[ info] Set current project toTestProject( in build file: /E: /bd/project/TestProject/ ) 
[ info] Updating | file: /E: /bd/project/TestProject/ | testproject. . . 

[ info | 

[ info | 


Resolvingjline#jline ;2. 12 ... 
Done updating. 


出 现下 面 提示 信息 时 ， 编 译 成 功 。 


lenovo? lenovo - PC /cygdrive/e/bd/ project/TestProject 

$sbt package 

[ info] Loading globalplugins from C: \Users\lenovo \. sbt V0. 13 plugins 

[ info] Set current project to Simple Project( in build file: /E: /bd/project/TestProject/ ) 

[ info] Updating | file: /E: /bd/project/TestProject/ | testproject. . . 

[ info] Resolving org. fusesource. jansi#jansi;1.4 ... 

[ info] Done updating. 

[ info] Compiling 1 Scala source to E: \bd\project\TestProject \target \scala — 2. 10\classes. . . 

[ info] Packaging E: \bd\project\TestProject \target \scala -2. IO simple — project, 2. 10 - 1. 0. jar... 


[ info] Done packaging. 
[ success] Total time:61 s,completed 2015 -4 -3 3:20: 10 


注意 ; 要 在 应 用 程序 所 在 的 目录 下 执行 该 命令 。 
7. 查看 生成 的 jar 包 


lenovo@ lenovo — PC /cygdrive/e/bd/ project/TestProject 
$find target/scala —2. 10/ 

target/ scala — 2. 10/ 

target/ scala — 2. 10/classes 

target/ scala — 2. 10/classes/SimpleApp $$anonfun $1. class 
target/ scala — 2. 10/classes/SimpleApp $$anonfun $2. class 
target/ scala — 2. 10/classes/SimpleApp $. class 

target/ scala — 2. 10/classes/SimpleApp. class 

target/scala — 2. 10/simple — project 2. 10 — 1. 0. jar 


PE RET IDEA 构建 Spark 应 用 程序 的 实例 ) 


这 部 分 内 容 详细 描述 了 如 何在 IDEA 中 构建 Spark 应 用 程序 ， 并 通过 关联 Spark 源码 ， 
为 Spark 应 用 程序 的 调试 工作 做 准备 。 

一 、 准 备 工作 

当前 安装 的 IntelliJ IDEA 版 本 为 14. 0. 1， 低 版 本 可 能 操作 上 会 有 些 差异 。IDEA 需要 安 
装 的 插件 ， 可 以 通过 以 下 步 又 来 查看 或 安装 。 
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1. 从 File 菜单 进入 Plugins 设置 界面 
单 击 File 菜单 下 的 Settings MS, HEA IDEA 配置 界面 ， 如 图 2.30 所 示 。 


TestProjectide - [E\bd\project\TestProjectlde] - E:\bd\spark-1.3.0\core\src\main\scala\org\ 
E o Window 


Jl 


Alt+Insert 


Ctrl+Alt+S 


Ctrl+Alt+Shift+S 


Ctrl+S 


图 2.30 IntelliJ IDEA 的 Settings 菜单 


第 一 次 打开 IDEA 或 在 File 菜单 下 单 击 Close Project 打开 IDEA 时 ， 在 出 现 的 界面 上 可 以 
打开 配置 页 面 。 如 图 2. 31 所 示 。 

在 这 里 单 击 下 拉 框 后 可 以 直接 看 到 Plugins， 打 开 就 可 以 进入 插件 管理 界面 ，Configure 
界面 如 图 2. 32 所 示 。 


9i Welcome to IntelliJ IDEA = | 


IntelliJ IDEA 


Import Settings 
Export Settings 


Check for Update 


Project Defaults > 


Al 2.31 IntelliJ IDEA AY Configure 入 口 界面 图 2.32 IntelliJ IDEA 的 
Plugins 配置 选项 
2. 安装 插件 
在 IDEA 的 配置 界面 ， 即 Settings 界面 上 可 以 浏览 已 经 安装 的 插件 ， 以 及 查找 插件 仓库 
中 的 其 他 插件 并 安装 ， 查 找 插件 仓库 中 的 插件 过 程 如 图 2. 33 所 示 。 
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Settings 7 E 
| 


Al 2.33 IntelliJ IDEA 的 Plugins 配置 界面 


在 Plugins 界面 中 ， 可 以 看 到 已 经 安装 的 插件 列表 ， 这 里 查看 是 否 已 经 安装 了 SBT, SBT 
Executor 和 Scala 插件 ， 如 果 还 没有 安装 ， 单 击 Browse repositories 按钮 ， 可 以 浏览 插件 仓库 ， 
然后 选择 要 安装 的 插件 ， 并 在 界面 右边 单 击 install 按钮 即 可 。 

二 、 构 建 Spark 应 用 程序 

构建 Spark 应 用 程序 的 详细 步骤 如 下 : 

1. 创建 Project 

在 File 菜单 下 单 击 New Project… 人 命令， 创建 一 个 新 的 Project。 创 建 一 个 Project 的 过 程 如 
图 2. 34 所 示 。 


spark-parent - [E:\harli\github\translate-spark] - [examples] - ...\examples\src\main\scala\org\apache\spark\exam 
m ics SBT 


Alt«Insert 


> 


Ctrl+Alt+S 
Ctrl+Alt+Shift+S 
, 


Ctrl+S 
Ctrl+Alt+¥ 


tart. 


图 2.34 IntelliJ IDEA 的 创建 新 Project 界面 


2. 选择 Scala, SBT 
Project 构建 设置 的 过 程 如 图 2. 35 所 示 。 
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图 2.35 IntelliJ IDEA 的 创建 Project FE 


选择 Scala, SBT 后 ， 单 击 OK 按钮 继续 。 
3. WE Project 名 字 ， 目 录 位 置 ， 以 及 选择 IDK 的 版 本 信息 
Project 的 具体 配置 信息 ， 包 含 名 字 、 目 录 位 置 等 的 具体 配置 如 图 2. 36 所 示 。 


f = 


mpty content roots automatically 


TestProject 


Finish Cancel 


2.36 IntelliJ IDEA 创建 Project 的 配置 界面 


创建 Project 之 前 ， 先 在 本 地 安装 JDK (也 可 以 后 续 在 File 菜单 下 的 Setting… 中 进行 设 
E). 。 此 处 ， 单 击 Finish 按钮 继续 , 

4. 创建 默认 的 目录 结构 

创建 成 功 后 ， 在 Project 中 右键 打开 上 下 文 菜单 ， 在 菜单 中 选择 Mark Directory As 命令 ， 
再 选择 Generated Sources Root 命令 ， 便 自动 构建 了 整个 Project 的 目录 结构 ， 自 动 构 建 整个 目 
录 结 构 的 操作 流程 如 图 2. 37 所 示 。 
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S] TestProjectide - [E\bd\project\TestProjectide] - IntelliJ IDEA 14.0.1 


bul Help improve Intell) IDEA by sending anonymous u: 
o. 


ae if you want to help make Intell] IDEA 


Ctrl -Shift-R. 


Ctrl+Shift+T 
Ctrl+Alt+L 
Ctrl+Alt+O 
Delete 


Ctrl Shift« F9 


Ctrl+Alt+F12 


Ctrl+D 


2.37 IntelliJ IDEA 的 自动 构建 整个 Project 的 目录 结构 菜单 


创建 过 程 中 会 进行 编译 ， 编 译 后 的 目录 结构 如 图 2. 38 所 示 。 
Bj] TestProjectide - [E\bd\project\TestProjectide] - [testprojectide] - ..\build.sbt - IntelliJ IDEA 14.0.1 RR NE 


te Code Analyze acto d Run Tool SBT Commands Help 


7 


+ | Bbuild.sbt 
Tei ane := 


> 站 main 

> Dtest 

E target 

> O resolution-cache 


>» O scala-2.11 


> ih External Libraries 


图 2.38 IntelliJ IDEA 的 SBT 构建 文件 


IDEA 已 经 构建 了 sre, sre 下 的 main 等 各 个 子 目 录 ， 同 时 包含 了 构建 时 生成 的 target E 
录 ， 在 这 里 可 以 看 到 ， 当 前 IDEA 使 用 的 Scala 版 本 为 2. 11.4. 

5. 修改 依赖 的 Scala 版 本 

由 于 当前 Spark 1.3 是 基于 Scala 2. 10. 4 版 本 构建 的 ， 考虑 到 Scala 的 二 进 制 兼容 性 ， 构 
建 的 应 用 程序 也 需要 保持 Scala 版 本 一 致 性 ， 所 以 需要 修改 版 本 。 

打开 build. sbt 文件 ， 修 改 ScalaVersion 为 “2. 10.4”， 版 本 修改 的 文件 内 容 如 图 2. 39 
所 示 。 

6. 执行 SBT Commands 下 的 Compile 命令 

在 安装 SBT 相关 的 两 个 插件 后 ， 菜 单 中 会 出 现 SBT Commands， 新 增 的 菜单 及 其 具体 子 
菜单 如 图 2. 40 所 示 。 


[2 build.sbt 


de [testprojectide] (EAb 


Itestprojectide-build] 


图 2.39 IntelliJ IDEA 的 修改 构建 的 Scala 版 本 


9l spark-parent - [E\harli\github\translate-spark] - [examples] - ...\examples\sri 
File Edit View Navigate Code Analyze Refactor Build Run T. VCS Window |SBT Commands Help 


Catranslate-spark Caexamples [src © main © scala Borg B apache Ds compile 


| a pF O Ved s.sca 


clean 


gen-idea 


> Egassembly 


12.40 IntelliJ IDEA 插件 的 SBT 命令 


SBT Commands 包含 以 下 几 种 命令 : 

1) compile: 编译 Project。 

2) clean: 清理 编译 结 

3) gen -idea: 可 以 在 Windows 7 下 使 用 ， 用 于 构建 IDEA 所 需 的 工程 信息 。 

运行 这 些 命令 后 ， 可 以 在 SBT Execute Output 窗口 查看 具体 过 程 ， 运 行 compile 子 菜单 时 
的 界面 信息 如 图 2. 41 所 示 。 


PRI 


2.4] IntelliJ IDEA 中 sbt compile 执行 过 程 


当 出 现 图 2. 42 中 的 界面 信息 时 ， 执 行 成 功 。 

Pee Scala 的 版 本 ， 对 应 构建 后 的 target 目录 中 会 生成 新 的 Scala 版 本 对 应 的 

录 ， 结 构 如 图 2. 43 所 示 。 

p^ target 目录 中 编译 的 结果 已 经 放 到 了 scala -2. 10 目录 。 

7. 在 src/main/scala 下 创建 Scala Object 

构建 Scala Object, Æ scala 目录 上 单 击 右键 ， 依 次 选择 New 一 Scala Class 命令 ， 步 又 如 
图 2. 44 所 示 。 


D 


2.42 IntelliJ IDEA 中 sbt compile 执行 结果 


I estProjectide = [E:\bd\project\| estProjectide] = |testprojectide] = ...\src\main\scala\HelloSpark.scalaj=intelly IDEA 14.0.1 


> [testprojectide] 


[testprojectide-build] 


图 2.43 IntelliJ IDEA 中 修改 Scala 版 本 并 重新 编译 后 的 目录 结构 


Sj] TestProjectide - [E\bd\project\TestProjectide] - [testprojectide] - ...\src\main\scala\HelloSparkMaster.scala - IntelliJ IDEA 14.0.1 — | 


actor ild Run T. indow Commands 


Hel 
Ea TestProjectide E src E main 
y E Projet ~ +|% [3 builc 


人 du ; | Java 


Y Osre = cux QE 
v E main Z = 


co E Ctrl+C 
户 jav 


Ctrl+Shift+C 

Ctrl+Alt+Shift+C 

Ctrl+V 

Alt+F7 

: Ctrl+Shift+F 

in Path... Ctrl+Shift+R 


unt () 
count () 


numBs)) 


Thumbnails Ctrl+Shift+T 


Ctrl+Alt+L 
Ctrl+Alt+O 


图 2.44 IntelliJ IDEA 中 添加 Scala 类 
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在 弹出 窗口 中 ， 单 击 下 拉 页 表 框 Kind, 选择 [Beene saver 
Object， 如 图 2. 45 所 示 。 Name: [HelipSparkMaster 

构建 后 ， 如 图 2.46 所 示 ， 其 中 HellpSparkMaster ki 
位 于 test 的 package 下 : 

在 Scala "P, package 的 名 字 和 目录 不 需要 像 Java 
那样 ， 必 须 _ 致 。 但 为 了 方便 查看 ， 建 议 使 用 像 Java [82:45 nelli IDEA rn 
那样 ， 保 持 两 者 的 一 致 性 ， 这 里 可 以 在 scala 目录 上 单 Ba 
击 右键 ,然后 构建 一 个 test 的 package ， 然 后 将 Scala Object 移 到 该 package 下 。 


JI TestPrajectide - [EAbd\project\TestProjectide] - [testprojectide] - ..\src\main\scala\ HellpSparkMaster.scala - IntelliJ IDEA 14.0.1 
t BAS S dov Commands Help 


Tr 


rm pt 
Pa TestProjectide © src. © main 
BH Pro M e $ @ SparkContextscala @RDD.scala 


ject 


Ide [testprojectide] (E:\bd\pro Q HelloSpark.scala 


L Proj 


E] 


[testprojectide-build] 


v E main 


m 


图 2.46 IntelliJ IDEA 中 添加 Scala 类 代码 


8. 开始 对 应 用 程序 进行 打包 : 构建 jar 包 
有 两 种 方式 可 以 使 用 ， 一 种 是 在 IDEA 界面 上 使 用 Terminal 窗口 ， 在 窗口 中 使 用 sbt 


M mm = 
package 进行 打包 。 如 图 2. 47 所 示 。 
\bd\project\TestProjectide] - [testprojectid \main\scala\HelloSpark.scala - IntelliJ IDEA 140.1 M nn 


alyz: 


de [testprojectide] ( No Scala SI 


[testprojectide-build] 


2.47 IntelliJ IDEA 的 sbt package 过 程 
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Terminal 打开 方式 如 图 2. 48 所 示 ， 单 击 左下 角 箭头 所 指 部 分 ， 选 择 Terminal, 


Ma 


Terminal 


这 种 方式 构建 的 jar 包 和 章节 2. 4. 基于 
SBT 构建 Spark 应 用 程序 的 实例 一 样 。 

9. 添加 依赖 的 jar 包 

虽然 已 经 有 了 sbt 构建 文件 ,但 IDEA 不 

识别 Spark 的 类 ， 在 代码 编辑 窗口 中 还 是 

有 错误 提示 信息 息 。 可 以 手动 将 依赖 的 jar 包 
添加 进去 ， 方 法 如 下 : 

1) 打开 Project Structure。 即 选择 File 3€ 
单 下 的 Project Structure .命令 ， 打 开 步 又 如 
图 2. 49 所 示 。 

2) 在 Libraries AY jar 包 。 选 
中 Libraries 命令 ， 单 击 “+” 按 钮 ， 选 择 
Scala SDK 命令 ， FUERIS 2.50 所 示 。 


图 2.48 IntelliJ IDEA 的 Terminal 界面 


J|] TestProjectide - 一 一 一 一 一 一 a a saa 


AlttInsert 7 


; = Ctrl+Alt+S 
E: Project Structure... Ctrl - Alte Shift S 
Other Settings + 


图 2. 49 IntelliJ IDEA 的 Project Structure 菜单 


[Bil Project Structuri 


From 


[ES Scala SDK 
Libraries 


图 2.50 IntelliJ IDEA 中 添加 Scala SDK 类 库 


3) 在 弹出 窗口 中 选择 Scala AY 2. 10. 4 版 本 ， 版 本 选择 界面 如 图 2.51 所 示 。 
4) Hut; OK 按钮 ， 在 弹出 的 窗口 中 选择 当前 的 Module， 单 击 OK 按钮 ， 然 后 继续 。 


Docs 


2.51 IntelliJ IDEA 中 选择 Scala SDK 类 库 版 本 


5) 继续 单 击 “+ ”按钮 ， 选 择 Java 命令 ， 添 加 Spark 的 编译 后 的 jar 包 ， 添 加 依赖 jar 
包 界 面 如 图 2. 52 所 示 。 


Name: 
ew Pr 


lili Java 


Libraries 


图 2.52 IntelliJ IDEA 中 选择 Java 第 三 方 类 库 
6) 在 Spark 安装 路 径 下 添加 所 需 的 依赖 jar 包 ， 如 图 2. 53 所 示 。 


\spark-assembly-1,3.0-hadoop2.4.0jar 


Cancel 


[£2.53 IntelliJ IDEA 中 选择 Spark 依赖 类 库 
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7) 这 里 选择 最 新 的 Sparkl. 3 版 本 编译 后 的 Spark — assembly -1.3.0 — hadoop2. 4. 0. jar 包 。 
8) Hd; OK 按钮 ， 在 弹出 的 窗口 中 选择 当前 的 Module， 单 击 OK 按钮 ， 完 成 依赖 jar 包 
的 添加 。 
10. 通过 IDEA 的 Artifacts 构建 jar 包 
1) 打开 Project Structure。 即 选择 File 菜单 下 的 Project Structure… 命 令 ， 在 Project Struc- 
ture 窗口 中 选择 Artifacts 命令 ，Artifacts 配置 如 图 2. 54 所 示 。 
lumen 


2.54 IntelliJ IDEA 中 Artifacts BCAA If 


2) 单 击 “+” 按 钮 ， 构 建 jar £2, 在 窗口 中 填写 相关 信息 ， 构 建 jar 包 的 选择 类 型 如 
图 2. 55 中 箭头 所 示 。 


Empty 


From modules with dependencies... 


2.55 IntelliJ IDEA 中 Artifacts 配置 
3) 弹出 窗口 中 选择 Module, Af Module 的 选择 如 图 2. 56 中 箭头 所 示 。 


y and link via manifest 


图 2.56 IntelliJ IDEA 中 Artifacts 的 Module 配置 
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4) 将 集群 中 已 经 部 署 的 jar 包 去 除 。 即 选中 jar 包 ， 单 击 “ - ”按钮 ， 去 除 这 部 分 依赖 
jar 包 ， 具 体操 作 如 图 2.57 所 示 。 


2.57 IntelliJ IDEA 中 Artifacts 的 配置 


5) 在 Artifacts 的 配置 界面 中 可 以 设置 构建 jar 包 的 输出 路 径 ， 可 以 在 构建 的 jar 包 中 去 
除 依赖 的 jar 包 。 单 击 OK 按钮 ， 继 续 在 IDEA 主 菜单 中 选择 Build 下 的 Build Artifacts… 命 令 ， 
操作 步骤 如 图 2. 58 所 示 。 


Sl] TestProjectide - [E\bd\project\TestProjectlde] - ide Cellars - ..\src\main\scala\HellpSparkMaster.scala - IntelliJ IDEA 14.0.1 | 


View Navigate Code Analyze Refacto T V ow SBT Commands Help 


= | i M Ctrl+F9 


Ea TestProjectide [src D main > 站 scala Ctrl + Shift+F9 
| 2 Q Pair 
cilde [testprojectide] (E:\bd\proje Exe [2] Hellg 


Generat 


Build Artifa 


ct [testprojectide-build] 


图 2. 58 IntelliJ IDEA 中 Artifacts 的 构建 菜单 


6) 构建 后 到 输出 路 径 上 查看 是 否 已 经 生成 jar 包 ， 本 例 生成 的 结果 文件 如 图 2. 59 
所 示 。 


project + TestProjectide +» out » artifacts » testprojectide jar 


刻录 新 建立 件 志 


H 
>t 


* 名称 收 改 日 期 E 


E 


| | lè] testprojectide.jar 2015/3/27 16:13 Executable Jar File 
图 2-59 IntelliJ IDEA 中 Artifacts 的 build 输出 结果 


到 这 一 步 ， 构 建 过 程 就 完成 了 。 
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27 Spark 提交 应 用 的 调试 实例 


Local 方式 调试 请 参考 王家 林 老 师 的 《大 数据 Spark 企业 级 实践 》。 这 里 主要 介绍 Master di 
集群 方式 下 Spark 应 用 程序 的 调试 。 

一 、 关 联 Spark 源码 

打开 Project Structure。 选 择 File 菜单 下 的 Project Structure… 命 令 ，Project Structure 界面 

如 图 2. 60 所 示 。 


图 2.60 IntelliJ IDEA 中 的 Project Structure… 荣 单 


在 图 2. 60 中 选中 Spark 的 jar Æ Spark - assembly - 1. 3. 0 - hadoop2. 4.0， 然 后 单 击 右面 
窗口 中 的 “+ ”按钮 ， 在 弹出 目录 中 选中 Spark 1.3 的 源码 目录 ， 如 图 2. 61 所 示 。 


图 2.61 选择 需要 关联 的 源码 目录 


FEB. 有 时 候 会 弹出 让 你 选择 “+ 上 +” 的 类 型 的 窗口 ， 这 时 候选 择 Sources 就 可 以 了 。 之 后 会 弹出 扫描 
进度 的 界面 ， 如 图 2.62 所 示 。 


图 2.62 等 待 关 联 源 码 扫 描 过 程 
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添加 源码 关联 后 ,会 自动 开始 扫描 ， 等 结束 后 会 等 弹出 下 面 的 窗口 ， 如 图 2. 63 所 示 ， 
默认 全 部 选择 即 可 ， 点 击 OK 按钮 。 


SJ] Detected Roots EM 


Choose Roots 
Wid T 


t items in the tree belo 


v Y E E\bd\spark-1.3.0 


2.63 ”检测 到 的 关联 源码 信息 
如 果 编 辑 界面 还 是 提示 错误 ， 单 击 File 菜单 下 的 Invalidate Caches/Restart… 命 令 ， 并 重 
新 启动 IDEA 即 可 ， 操 作 界 面 如 图 2. 64 所 示 。 


Sl] TestProjectide - [E\bd\project\TestProjectIde] - pd 
Ele Edit w Navigate Code Analyze R r Build Run Tools VCS Window SBTC 


...\src\main\scala\HellpSparkMas 


T " or 


port rt Pr 
Import 
Alt+Insert 2 je Q HelloSpark.scala 


Ctrl+Alt+S 
Ctrl+Alt+Shift+S 
Other Settings > 
Import Setti 


Ctrl-S 
Ctrl - Alt- Y 


DS 


2.64 重新 刷新 


= 


缓存 信息 的 菜单 
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到 这 一 步 ， 关 联 源 码 已 经 完成 ， 可 以 开始 调试 Spark 应 用 程序 了 。 关 联 源 码 后 ， 调 试 应 
用 程序 时 ， 也 可 以 同时 调试 Spark 的 源码 。 如 果 要 远程 调试 Spark 的 各 个 组 件 ， 可 以 参考 
(Spark 学 习 笔记 . docx》 的 调试 章节 (https://github. com/harlixxy/StudyNotes/) ， 笔 记 中 同 
时 提供 了 远程 调试 详细 步 又 的 链接 。 e» 

二 、 进 行 Spark 应 用 程序 的 调试 设置 

单 击 Run 菜单 下 的 Debug… 命 令 ， 打 开 调 试 设 置 窗口 ， 步 又 如 图 2. 65 所 示 。 


Jl thle E isiprojecudsr »Asreimaii ellpSparkMaster.scala - IntelliJ IDEA 14.0.1 SS | 
i ew vig ly: f B SBT Commands Help 


| Shift+F10 
Shift+F9 
Ea TestProjectide © src Ei main ! 
Alt+Shift+F10 ^? 
Alt+Shift+F9 


2.65 IntelliJ IDEA 中 的 Debug… 命 令 


在 弹出 窗口 中 ， 选 择 Edit Configurations… 命 令 ， 如 图 2. 66 所 示 。 


Debug 


0. Ẹ Edit Configurations... 


pSparkMaster (1) * 


图 2.66 IntelliJ IDEA 中 的 调试 编辑 菜单 


在 左边 窗口 单 击 “+ ”按钮 ， 添 加 一 个 应 用 程序 (Application) ， 添 加 后 修改 Applica- 
tion 的 配置 信息 ， 如 图 2. 67 所 示 。 

为 了 模拟 spark — submit 提交 部 署 应 用 程序 ， 我 们 用 spark - submit 脚本 最 终 执行 
SparkSubmit 作为 调试 入 口 。 rn 封装 了 集群 应 用 的 部 署 ， 通 过 SparkSubmit 才能 调 2 
JE Local 的 集群 模式 。 进 一 步 地 ， 还 可 以 通过 设置 环境 变量 来 完全 模拟 SparkSubmit 部 署 。 

在 图 2. 67 中 的 右面 窗口 中 : 

1) Name: 是 添加 的 Application 的 名 字 。 

2) Main class; 是 调试 的 入 口 类 ,设置 为 org. apache. spark. deploy. SparkSubmit, 

3) Program arguments; 输入 使 用 spark - submit 脚本 提交 应 用 程序 时 所 用 的 参数 ， 包 含 
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图 2.67 IntelliJ IDEA 中 的 调试 时 程序 参数 的 设置 界面 


以 下 部 分 。 

e —- class; test. HellpSparkMaster， 即 要 调试 的 应 用 程序 。 

e 一 -master: Spark 集群 的 MasterURL， 必 须 和 Spark 集群 Web Interface (http://master: 

8080) 上 显示 的 一 样 。 

e 最 后 是 输入 刚才 构建 的 应 用 程序 jar 包 的 地 址 。 

spark - submit 脚本 提交 应 用 程序 最 终 也 是 将 脚本 的 参数 传人 SparkSubmit， 因 此 这 里 使 
用 的 Program arguments 和 脚本 的 参数 是 一 样 的 。 

三 、 调 试 Spark 应 用 程序 

单 击 Run 菜单 下 的 Debug… 人 命令， 打开 调试 设置 窗口 ， 在 弹出 窗口 中 选中 刚才 建立 的 调 
试 Application, ， 这 里 对 应 刚才 的 调试 编辑 界面 图 2. 67 上 的 Application 中 的 HellpSparkMaster， 
如 图 2. 68 所 示 。 


Debug 
0. Ez Edit Configurations... 


HellpSparkMaster — 


hift to Run 
图 2.68 启动 指定 名 字 的 应 用 程序 调试 


或 在 下 拉 框 中 选择 调试 的 HellpSparkMasterApplication， 单 击 工 具 栏 里 的 调试 快捷 按钮 ， 
如 图 2. 69 所 示 。 

在 应 用 程序 test. HellpSparkMaster 的 main 函数 中 设置 断 点 ， 也 可 以 按 [Cul +N) 组合 
键 打开 SparkSubmit 类 。 在 SparkSubmit 中 设置 断 点 进行 调试 ， 调 试 窗口 的 内 容 如 图 2. 70 
所 示 。 
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Debug li Hellp 


Debugger [Ej Console ^* 


[s] main(:13, HellpSpa 


图 2.70 应 用 程序 调试 的 界面 信息 
调试 窗口 中 ， buen 为 调试 窗口 ， 可 以 看 到 调试 信息 ， le 为 控制 台 和 窗口 ， 可 以 
看 到 控制 台 输出 信息 。 控制 台 窗 口 的 右边 工 具 栏 为 调试 工具 栏 ， 在 Variablies 窗口 中 可 以 查 


看 当前 程序 的 变量 信息 。 
切换 到 Console 输出 窗口 ， 查 看 Console ， 即 查看 控制 台 输 出 的 执行 结果 ,下面 是 输出 信 


息 的 截图 。 控 制 台 Console 输出 信息 如 图 2.71 所 示 。 


Debug ‘fm HellpSparkMaster 


m Debugger [B] Console +" ^x 


^ 


ines with a: 1, Lines with b 


e after foreach: 0 


™ 2: Favorites 


图 2.71 应 用 程序 调试 过 程 的 部 分 输出 信息 
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可 以 看 到 应 用 程序 已 经 成 功 执行 。 下 图 是 Driver Program 的 Web Interface (http: //dirver 
:4040) 界面 信息 ， 应 用 程序 执行 结果 如 图 2.72 所 示 。 


f harl 的 QQ 空间 [httpy/8C x 


国门 Helo Spark - Executor: x V S RG 


€ > © (5192.168.80.195:4040/executors/ 
注 应 用 D ORBIS 0 数据 处 理 O88 O Tools O 项 目 . Hé O hali 0 8S C others Cj 网 站 C] Work Cj Bigdata C github/apache C3 oschina O $% Cj OS Cj ate 


Spoik 336 Jobs Stages Storage Environment Executors Hello Spe 


Executors (4) 


Memory: 0.0 B Used (1235.6 MB Total) 
Disk: 0.08 Used 


Executor RDD Memory Disk Active Failed Complete Total Task Shuffle ^ Shuffle Thread 

ID Address Blocks Used Used Tasks Tasks Tasks Tasks Time Input Read Write Logs Dump 

0 wison223:36183 0 0.08/265.0 00B 0 0 1 1 26s 00B 00B 00B stdout Thread 
MB stder Dump 

1 wison225:39538 0 U0B/2650 00B 0 0 5 5 10.0s 00B 00B 00B stdout Thread 
MB stderr Dump 

2 wison215:55583 0 0.0B/265.0 0.0B 0 0 2 2 56s 0.08 00B 0.08 stdout Thread 
MB stderr Dump 

<driver> 192.168.80.195:54499 0 0.0B/ 440.6 0.0B 0 0 0 0 Oms 008 00B 00B Thread 
MB Dump 


2.72 ”应 用 程序 调试 时 的 UT 界面 


在 窗口 中 可 以 看 到 刚才 提交 的 应 用 程序 。 由 于 是 在 集群 中 提交 ， 分 布 式 计算 ， 在 Task 
执行 时 的 输出 信息 是 在 Executor 机 器 上 输出 的 ， 可 以 在 上 面 的 界面 Logs 列 进 行 查看 。Logs 
包括 stdout 和 stderr 两 个 文件 (Executor 输出 时 重 定 向 到 这 两 个 标准 输出 流 ) ， 前 者 是 标准 输 
出 信息 ， 后 者 是 标准 错误 。 

下 面 是 stderr 文件 内 容 的 截图 ， 内 容 如 图 2. 73 所 示 。 


Soo 130 Stderr log page for app-20150327131847-0011/0 


Back to Master 
Previous 0B | Bytes 0 - 9003 of 9003 


15/03/27 13:18:48 INFO executor.CoarseGrainedExecutorBackend: Registered signal handlers for (TERM, HUP, INT] 

15/03/27 13:18:48 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable 

15/03/27 13:18:48 INFO spark.SecurityManager: Changing view acls to: harli,lenovo 

15/03/27 13:18:48 INFO spark.SecurityManager: Changing modify acls to: harli,lenovo 

15/03/27 13:18:48 INFO spark.SecurityManager: SecurityManager: authentication disabled; ui acls disabled; users with view permissions: Set(harli, lenovo); users w 
ith modify permissions: Set(harli, lenovo) 

15/03/27 13:18:49 INFO s1f64j.S1f4jLogger: Slf4jLogger started 

15/03/27 13:18:49 INFO Remoting: Starting remoting 

15/03/27 13:18:49 INFO Remoting: Remoting started; listening on addresses :[akka.tcp://driverPropsFetchergwison223:22794] 

15/03/27 13:18:49 INFO uti2.tits: Successfully started service "driverPropsFetcher' on port 22794. 

15/03/27 13:19:16 INFO remote.RemoteActorRefProvider$RemotingTerminator: Shutting down remote daemon. 

15/03/27 13:19:16 INFO spark.SecurityManager: Changing view acls to: harli,lenovo 

15/03/27 13:19:16 INFO spark.SecurityManager: Changing modify acls to: harli,lenovo 

15/03/27 13:19:16 INFO spark.SecurityManager: SecurityManager: authentication disabled; ui acls disabled; users with view permissions: Set(harli, lenovo); users w 
ith modify permissions: Set(harli, lenovo) 

15/03/27 13:19:16 INFO remote.RemoteActorRefProvider$RemotingTerminator: Remote daemon shut down; proceeding with flushing remote transports. 

15/03/27 13:19:16 INFO s1f4j.Slf4jlogger: Slf4jLogger started 

15/03/27 13:19:16 INFO Remoting: Starting remoting 

15/03/27 13:19:16 INFO remote.RemoteActorRefProvider$RemotingTerminator: Remoting shut down. 

15/03/27 13:19:16 INFO Remoting: Remoting started; listening on addresses :[akka.tcp://sparkExecutor&wison223:58944] 


图 2.73 应 用 程序 调试 时 UI 界面 的 stderr 文件 内 容 


PS) 移动 互联 网 数据 分 析 案 例 与 解析 


本 章 最 后 给 出 一 个 完整 的 基于 移动 互联 网 数据 分 析 的 案例 与 解析 。 通 过 对 移动 互联 网 数据 
的 分 析 ， 了 解 移动 终端 在 互联 网 上 的 行为 以 及 各 个 应 用 在 互联 网 上 的 发 展 情况 等 信息 ， 有 具体 包 
括 对 不 同 应 用 的 使 用 统计 、 移 动 互联 网 上 的 日 活跃 用 户 (Day Active n DAU) 和 月 活跃 用 
户 数 (Monthly Active Users, MAU) 的 统计 ， 以 及 不 同 应 用 中 的 上 行 下 行 流 量 统计 等 分 析 。 
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| 移动 互联 网 数据 的 准备 


为 了 简化 移动 互联 网 数据 的 分 析 ， 这 里 提供 简化 模型 后 的 数据 信息 ， 数 据 信 息 包含 以 下 © 
几 个 字段 ， 字 段 名 及 其 描述 如 下 : 

1) NodeID: 基站 ID 信息 。 

2) Cl: 小 区 标识 信息 (Cellldentity) 。 

3) IMEI: 国际 移动 电话 设备 识别 码 (International Mobile Equipment Identity); FIALE, 

4) APP; 应 用 的 名 称 。 

5) Time; 访问 时 间 。 

6) UplinkBytes: 上 行 的 字 节 数 。 

7) DownlinkBytes: 下 行 的 字 节 数 。 

移动 互联 网 数据 是 移动 终端 对 在 互联 网 上 的 访问 信息 的 记录 ， 每 一 列 分 别 对 应 前 面 
的 各 个 字段 : NodeID, CI, IMEI , APP , Time , UplinkBytes 以 及 DownlinkBytes 。 存放 在 
. . / data/mobile. csv 文件 中 ， 各 个 字段 模拟 的 数据 如 下 所 示 (由 于 涉 密 原因 ， 数 据 是 人 为 
构建 的 ， 真 实数 据 会 有 一 点 差异 ， 比 如 Time 字段 实际 为 系统 时 间 戳 ，CI 同时 会 带 有 经 纬 
度 信息 等 ) : 


1,1,460028714280218 ,360,2015 -05 -01 ,7,1116 
1,2,460028714280219 ,qq,2015 -05 -02 ,8 ,121 
1,3,460028714280220 ,yy,2015 -05 -03 ,9 ,122 
1 ,4 ,460028714280221 ,360 ,2015 -05 -04 ,10 ,119 
2,1,460028714280222 ,yy,2015 -05 -05 ,5 ,1119 
2 ,2 ,460028714280223 ,360,2015 -05 -01 ,12 ,121 
2 ,3 ,460028714280224 ,qq,2015 -05 -02 ,13 ,122 
3.1,460028714280225 ,qq,2015 -05 -03 ,1 ,1117 
3.2,460028714280226 ,qq,2015 -05 -04,9 ,1118 
3,3,460028714280227 ,qq,2015 -05 -05 ,10 ,120 
1,1,460028714280218 ,360,2015 — 06 -01 ,11 ,1118 
1,2,460028714280219 ,qq,2015 — 06 -02 ,2 ,1119 
1,3 ,460028714280220, yy ,2015 — 06 -03 ,9 ,1120 
1,4,460028714280221 ,360 ,2015 — 06 —04,10,119 
2,1,460028714280222 , yy ,2015 -06 -05,11,1118 
2.,2,460028714280223 ,360 ,2015 -06 -02 ,4,121 
2 ,3 ,460028714280224 ,qq,2015 -06 -03 ,17 ,1119 
3 , 1 ,460028714280225 ,qq,2015 - 06 -04,18 ,119 
3 ,2 ,4600287 14280226 ,qq,2015 - 06 - 05,19 ,1119 
3 ,3 ,460028714280227 ,qq,2015 - 06 — 10,20, 121 


上 传 数据 文件 . . /data/mobile. csv 到 hdfs 的 根 目录 下 : 


[ harli@ cluster04 cluster |$hdfs dfs — put data/mobile. csv / 

[ harli@ cluster04 cluster ]$hdfs dfs — ls / 

Found 2 items 

-rw-r--r-- [hari supergroup 828 2015 - 05 -31 07:00 / mobile. csv 
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pee | 移动 互联 网 数据 分 析 与 解析 


移动 互联 网 数据 分 析 前 需要 先 启动 spark - shell 交互 命令 : 
bin/spark — shell —— executor - memorylg —— driver ~ memory 1g —— master spark: //cluster04: 7077 


HB, cluster 04 为 spark 集群 的 Master 节点 。 
启动 后 使 用 下 面 语句 ， 去 除 过 多 的 日 志 信息 : 


scala > import org. apache. log4j. | Level ,Logger| 

import org. apache. log4j. | Level, Logger} 

scala > Logger. getLogger( " org. apache. spark" ). setLevel( Level. WARN) 

scala » Logger. getLogger( " org. apache. spark. sql" ). setLevel( Level. WARN) 

scala > Logger. getLogger( " org. apache. hadoop. hive. ql" ). setLevel( Level. WARN) 


数据 字段 模型 等 变量 的 定义 : 


// 定 义 当 前 移动 互联 网 数据 的 字段 列表 
val fields = List( " NodeID" ," CI" ," IMEI" ," APP" , "Time" ," UplinkBytes" ," DownlinkBytes" ) 


//[ 为 了 避免 在 每 个 task 任务 中 传输 fields 信息 ,可 以 对 其 进行 广播 ,代码 如 下 
scala > valbcfields = sc. broadcast( fields ) 
befields : org. apache. spark. broadcast. Broadcast[ List[ String] ] = Broadcast(4) 


一 、 移 动 互 联网 数据 的 加 载 及 预 处 理 
这 里 分 析 的 移动 互联 网 数据 已 经 是 经 过 一 定 处 理 之 后 的 数据 ， 为 了 给 出 一 些 预 处 理 (EO 
如 无 效 数据 过 滤 ) 的 案例 ， 在 各 种 统计 分 析 之 前 先 加 载 数 据 文件 ， 并 对 文件 进行 简单 处 理 。 
首先 加 载 文件 ， 然 后 通过 判断 每 行 数据 的 字段 个 数 ， 对 访问 记录 的 有 效 性 进行 判断 。 
// 加 载 文 件 , 并 将 每 行 记录 以 逗号 分 隔 ,最 后 根据 字段 个 数 进行 过 滤 
scala > val mobile = sc. textFile( " /mobile. csv" ). map( _. split(" ," ) ). filter| case line if( line. length ! 


= befields. value. length) => false 


| case _ => true 


| | 
mobile; org. apache. spark. rdd. RDD[ Array [ String] ] = MapPartitionsRDD [ 57 ] at filter at < console 
2 :26 
如 果 有 多 个 有 效 性 过 滤 条 件 ， 尽 可 能 在 一 个 API 中 ， 比 如 这 里 的 filter 中 的 判断 函数 。 
因为 每 个 对 分 区 进行 操作 的 API， 都 对 应 了 一 次 Iterator 的 迭代 ， 当 分 区 记录 比较 多 时 ,多 
次 迭代 会 对 性 能 会 有 一 定 影响 。 
二 、 不 同 应 用 使 用 情况 的 统计 
对 移动 互联 网 数据 的 不 同 应 用 使 用 情况 的 统计 ， 可 以 简化 为 对 APP 字段 访问 次 数 的 简 
单 统 计 ， 统 计 代码 如 下 : 
scala > mobile. map( x => (x(befields. value. indexOf( " APP" ) ) ,1)). reduceByKey(_+_). map(x => 


(x _2,x. 1)). sortByKey( false). map(x => (x. 2,x. . 1) ). collect 
res45 ; Array | (String, Int) ] = Array( (04,10) , (360,6) , ( yy,4) ) 


第 2 章 Spark RDD 实 践 案例 与 解析 


首先 ， 第 一 个 map 将 移动 互联 网 数据 转换 为 org. apache. spark. rdd. RDD[ (String, Int) ] 类 
型 ， 其 中 ，String 对 应 APP 的 信息 ，Int 对 应 使 用 的 计数 信息 ; 然后 使 用 reduceByKey 对 APP 
进行 计数 统计 ; 最 后 通过 map 交换 key 与 value， 并 使 用 sortByKey 进行 排序 ， 这 里 sortByKey 
的 参数 为 false， 表 示 计 数 从 大 到 小 进行 排序 。 > 
为 了 方便 查看 ， 这 里 通过 collect 在 界面 上 显示 结果 ， 在 实际 的 应 用 中 ， 可 以 保存 到 文 
件 中 ， 如 下 所 示 : 


scala > mobile. map( x => (x(befields. value. indexOf( " APP" ) ) ,1) ). reduceByKey(_ +_). map(x => 
(x _2,x. 1)). sortByKey( false). map(x => (x. 2,x. 1) ). repartition( 1). saveAsTextFile( " /result/ 
appstatl" ) 
在 保存 文件 时 ， 通 过 repartition(1) 指 定 分 区 个 数 为 1， 可 以 将 所 有 内 容 保存 到 一 个 文件 
由。 文件 保存 的 结果 如 下 ， 


[ harli@ cluster04 cluster |$hdfs dfs -ls -R /result 


drwxr-xr-x —- hari supergroup 0 2015 - 05 -31 10: 13 /result/appstatl 
-rw-r--r-- (hari supergroup 0 2015 - 05 -31 10: 13 /result/appstat1/ SUCCESS 
-rw-r--r-- (hari supergroup 23 2015 - 05 -31 10: 13 /result/appstatl/ part — 00000 


[ harli@ cluste104. cluster |$hdfs dfs — text / result/appstatl / part — 00000 


(qq,10) 
(360,6) 


(yy,4) 
三 、 移 动 互联 网 上 的 DAU 及 MAU 的 统计 
对 动 互联 网 上 的 DAU 及 MAU 的 统计 时 ， 需 要 注意 对 用 户 的 去 重 处 理 : 每 个 用 户 由 字段 
“TIMEI” 唯 一 标识 ， 统 计时 需要 去 除 重复 用 户 。 
统计 移动 互联 网 上 的 DAU 的 代码 如 下 : 
scala > mobile. map( x => ( x( befields. value. indexOf( " IMEI" ) ) +" :" +x(hbefields. value. indexOf( " 
Time" ) ) ) ). distinet( ). map(x => (x. split(" ;" ) (1) ,1) ). reduceByKey(_ + _). sortByKey( ). collect 
res53 : Array | (String, Int) ] = Array ( (2015 -05 -01,2),(2015 -05 -02,2),(2015 -05 - 03,2), 
(2015 -05 -04,2),(2015 -05 -05,2),(2015 -06 -01,1),(2015 -06 -02,2),(2015 -06 - 03, 
2) ,(2015 -06 - 04,2) , (2015 -06 205,2) , (2015 -06 —10,1)) 
首先 ， 为 了 统计 DAU 时 对 用 户 进 行 去 重 ， 通 过 第 一 个 map 操作 ， 将 唯一 标识 用 户 信息 
的 “IMEI” 字 段 和 标识 日 访问 的 时 间 “Time” 字 段 进行 合并 ; 然后 调用 distinct( ) 方 法 进行 
去 重 ; 最 后 从 合并 数据 中 提取 出 “Time” 字 段 ， 并 进行 计数 统计 。 
同样 ， 为 了 方便 查看 ， 这 里 通过 collect 在 界面 上 显示 结果 ， 在 实际 的 应 用 中 ， 可 以 保 
存 到 文件 中 ， 具 体 参 考 对 移动 互联 网 数据 的 不 同 应 用 使 用 情况 的 统计 中 的 保存 文件 代码 部 
分 。 后 续 代 码 中 都 会 通过 collet 方式 显示 统计 结果 (collect 适合 在 调试 代码 或 查看 少量 数据 
时 使 用 ， 大 量 数据 处 理 结果 的 查看 ， 可 以 通过 take 等 方法 ) 。 
统计 移动 互联 网 上 的 MAU 的 代码 如 下 : 


scala > mobile. map| x 2» 
| val t 2 x( befields. value. indexOf( " Time" ) ) 
| val m =t. substring(0,t. lastIndexOf( " —" ) ) 
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| x(befields. value. indexOf( " IMEI") ) +":" +m 

| |. distinct( ). map(x => (x. split(":") (1),1) ). reduceByKey(_ +_). sortByKey( ). collect 
15/05/31 10:52:06 INFOFileInputFormat ; Total input paths to process ; 1 
res7 ; Array | (String, Int) ] = Array( (2015 - 05,10) , (2015 —06,10) ) 


MAU 的 统计 和 DAU 的 统计 仅仅 在 统计 的 时 间 上 存在 差异 ， 这 里 首先 在 合并 “IMEI” 字 
段 和 时 间 “Time” 字 段 时 ， 将 时 间 “Time” 字 段 转 换 为 月 份 ， 之 后 的 处 理 和 DAU 的 统计 是 
一 样 的 。 

四 、 在 不 同 应 用 中 的 上 下 行 流量 统计 

对 移动 互联 网 数据 的 不 同 应 用 的 流量 统计 可 以 得 到 不 同 应 用 的 基础 分 析 信息 ， 比 如 可 以 
结合 各 个 应 用 的 使 用 次 数 ， 各 个 应 用 的 类 型 (比如 视频 应 用 、 网 页 浏览 应 用 等 ) 等 信息 分 
析 各 个 应 用 在 流量 使 用 上 是 否 合理 ， 以 及 分 析出 不 同 应 用 对 网 速 的 不 同 要 求 等 。 

具体 上 下 行 流量 的 统计 代码 如 下 : 


scala > mobile. map | x 2» 
| val ub 2 x( befields. value. indexOf( " UplinkBytes" ) ). toDouble 
| | val db 2 x( befields. value. indexOf( " DownlinkBytes" ) ). toDouble 
| (xCbefields. value. indexOf( " APP" ) ) , List[ Double ] ( ub, db) ) 
|. reduceByKey( (x, y) => List(x(0) 4 y(0) ,x(1) +y(1))). collect 
res9 ; Array [ (String, List[ Double] ) ] = Array ( (yy, List (34. 0,3479. 0) ) , (qq, List (117. 0,6195. 0) ) , 
(360, List(54. 0,2714. 0) ) ) 
首先 ， 通 过 map 方法 ,将 每 条 访问 记录 转换 为 (应 用 名 称 ，[ 上 行 流量 ， 下 行 流量 ]) 
的 数据 类 型 ， 然 后 通过 reduceByKey 方法 对 各 个 应 用 的 上 下 行 流 量 进行 统计 分 析 。 
需要 说 明 的 是 ， 实 际 情况 下 各 种 应 用 中 会 包含 不 同 的 子 应 用 ( 即 一 个 大 类 型 的 应 用 中 
会 有 子 类 型 的 应 用 ) ， 比 如 在 QQ 应 用 中 ,会 包含 QQ 空间 、 文 本 聊天 、 语 音 聊 天 以 及 视频 聊 
天 等 。 在 真实 的 移动 互联 网 数据 中 ， 通 常会 使 用 两 个 字段 ， 即 大 业务 类 型 和 小 业务 类 型 来 表示 
QQ 应 用 及 其 具体 的 子 应 用 ， 这 时 候 可 以 针对 大 应 用 和 小 应 用 进行 统计 以 实现 更 精确 的 分 析 。 
对 移动 互联 网 数据 进行 统计 分 析 之 后 ， 可 以 进一步 通过 可 视 化 工具 进行 呈现 。 下 面 应 用 
程序 统计 如 图 2. 74 所 示 。 


腾讯 、 阿 里 、 百 度 及 360 占 据 TOP20 移 动 应 用 的 绝 大 多 数 


月 度 醒 车 率 移动 应 用 TOP20 
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图 2.74 移动 互联 网 Top20 应 用 的 占 比 图 
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通过 统计 分 析 并 以 图 表 方 式 呈 现 后 ， 可 以 让 用 户 更 易于 了 解 移动 互联 网 的 行业 发 展 
情况 。 


G 
Spark RDD 实践 中 的 常见 问题 与 解答 


在 Spark RDD 的 实践 中 ， 初 学 者 经 常会 碰 到 一 些 问题 ， 比 如 如 何 设置 加 载 文件 后 构建 的 
RDD 的 分 区 数 ， 如 何 加 载 各 种 文件 系统 中 的 文件 等 。 这 里 列 出 了 出 现 频率 比较 高 的 问题 ， 
在 前 面 章 节 的 实践 案例 与 解析 基础 上 ， 给 出 问题 的 解答 。 

1. 如 何 控 制 加 载 的 文件 系统 ， 即 如 何 设置 文件 加 载 时 的 scheme 

Spark 集群 构建 在 本 地 文件 系统 时 : 默认 使 用 的 是 本 地 文件 系统 ， 对 应 于 scheme 为 
file: //， 即 /home/path 实际 对 应 file: ///home/path 。 

Spark 集群 构建 在 HDFS 文件 系统 上 时 : 默认 使 用 的 是 Hadoop 配置 的 defaultFS 文件 系 
统 ， 一 般 为 HDFS， 因 此 ，scheme 默认 为 hdfs: //, Hl/user/path 实际 对 应 hdfs: //defaultFS/ 
userpath。 如 果 是 构建 在 本 地 文件 系统 的 话 ， 默 认 使 用 的 就 是 本 地 文件 系统 了 ， 也 就 是 对 应 
file: // , 

其 中 defaultFS 为 HDFS 中 配置 的 文件 系统 信息 ， 一 般 设 置 为 master: 8020, 

2. 应 用 程序 中 的 println 信息 没有 输出 到 界面 上 

分 布 式 计 算 时 ， 对 应 在 Executor 上 执行 的 Task 的 输出 也 同样 位 于 Executor 所 在 Worker 
机 器 节点 上 ， 这 也 是 为 什么 不 能 在 Driver 的 控制 台 上 看 到 println 等 对 应 的 输出 信息 的 原因 。 
可 以 通过 页 面 上 对 应 的 Executor 上 的 stdout/stderr 两 个 输出 文件 进行 查询 。 可 以 参考 章节 
2. 4. 3Spark 提交 应 用 的 调试 实例 部 分 。 在 后 面 的 实例 中 ， 会 给 出 不 同 集群 模式 和 部 署 模式 
F, 日 志 信 息 如 何 查 找 的 案例 ， 包 括 Standalone Fil Yarn 两 种 集群 下 的 Executor 的 日 志 查询 和 
Driver 的 日 志 查 询 。 

3. cache 为 什么 没有 起 作用 ， 或 没有 存储 到 磁盘 上 

参见 章节 2.2.7RDD 的 持久 化 案例 与 解析 部 分 ，cache 对 应 的 存储 级 别 及 其 含义 如 下 : 


存储 级 别 (Storage Level) E x 


将 RDD 以 反 序列 化 (deserialized) 的 Java 对 象 存储 到 JVM。 如 果 RDD 不 能 被 内 存 装 
载 ， 一 些 分 区 将 不 会 被 缓存 ， 并 且 在 需要 的 时 候 被 重新 计算 。 这 是 默认 的 级 别 


MEMORY_ONLY 


MEMORY ONLY 缓存 级 别 的 缓存 ， 只 有 在 内 存 能 装载 下 时 ，RDD 的 分 区 数据 才 存 储 在 
内 存 中 ， 否 则 会 被 丢弃 ， 在 需要 时 重新 计算 。 如 果 选 择 MEMORY ONLY 级 别 ， 内 存 装 载 不 
下 时 RDD 的 分 区 数据 是 不 会 持久 化 到 磁盘 的 ， 所 以 要 根据 所 选择 的 存储 级 别 去 分 析 实 际 的 
存储 情况 。 

另外 ， 只 有 在 触发 的 情况 下 ， 才 会 计算 出 RDD ， 然 后 进行 缓存 ， 如 果 只 计算 了 RDD 中 
的 部 分 分 区 〈 比如 用 take 等 进行 触发 的 语 ) ， 也 就 只 有 计算 后 的 这 部 分 分 区 会 缓存 ， 而 不 是 
缓存 整个 RDD。 
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4. 如 何 判 断 一 个 RDD 的 算 子 操作 有 Shuffle 过 程 


判断 一 个 RDD 的 算 子 是 否 有 Shuffle 过 程 ， 并 不 是 依据 该 RDD 是 否 为 ShuffledRDD ， 而 
是 根据 算 子 操作 得 到 的 结果 RDD， 查 询 其 父 依赖 关系 中 是 否 包 含 了 ShuffleDependency 类 型 
的 依赖 ， 如 果 包 含 ， 则 操作 过 程 需要 进行 Shuffle。 比 如 CoGroupedRDD 类 ， 可 以 自己 查看 下 


它 的 getDependencies 方法 的 源码 ， 将 会 看 到 ，CoGroupedRDD 的 父 依 赖 有 可 能 为 ShuffleDe- 
pendency 的 ， 所 以 CoGroupedRDD 有 可 


eb SE 


能 需要 Shuffle 过 程 。 
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3.1 Spark SQL 概述 

3.2  DataFrame 处 理 的 案例 与 解析 

3.3 Spark SQL 处 理 各 种 数据 源 的 案例 与 解析 

3.4 基于 Hive 的 人 力 资源 系统 数据 处 理 案 例 与 解析 
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E Spark SQL 概述 


Spark SQL 在 伯克利 数据 分 析 协 议 栈 中 的 位 置 如 图 3. 1 所 示 : 


Apache Spark 


HDFS,S3,LocalFS,ClusterFS,NFS,Ceph.... 


Apache Mesos Apache Yarn 


图 3.1 伯克利 数据 分 析 协 议 栈 


Spark SQL 在 Spark 内 核 基础 上 提供 了 对 结构 化 数据 的 处 理 ， 在 Spark1. 3 版 本 中 ，Spark 
SQL 不 仅 可 以 作为 分 布 式 的 SQL 查询 引擎 ， 还 引入 了 新 的 DataFrame 编程 模型 。 

在 Sparkl. 3 版 本 中 ，Spark SQL 不 再 是 Alpha 版 本 ， 除 了 提供 更 好 的 SQL 标准 兼容 之 
外 ,还 引进 了 新 的 组 件 DataFrame。 同 时 ，Spark SQL 数据 源 API 也 实现 了 与 新 组 件 Dat- 
aFrame 的 交互 ， 人 允许 用 户 直 接 通过 Hive R, Parquet 文件 以 及 一 些 其 他 数据 源 生成 Dat- 
aFrame。 用 户 可 以 在 同一 个 数据 集 上 混合 使 用 SQL 和 DataFrame 操作 符 。 新 版 本 还 提供 了 从 
JDBC 读 写 表 的 能 力 ， 可 以 更 原生 地 支持 Postgres 、MySQL 及 其 他 RDBMS 系统 。 

Spark SQL 所 有 功能 的 人口 点 是 SQLContext， 或 它 的 一 个 子 类 。 只 需要 一 个 SparkContext 
实例 就 可 以 构建 一 个 基本 的 SQLContext。 

再 次 强调 ，spark - shell 除了 帮 有 我 们 构建 了 SQLContext 实例 外 ， 还 帮 我 们 导入 了 隐 式 转 
1. import sqlContext. implicits. _。 在 以 spark — submit 方式 提交 的 应 用 程序 中 ， 需 要 手动 导入 
该 隐 式 转换 才能 访问 某 些 API, 


DataFrame 处 理 的 案例 与 解析 


Spark 内 核 的 RDD API 通过 函数 式 编程 的 模式 把 分 布 式 数据 处 理 转 换 成 分 布 式 数据 集 
(distributed collections) 的 处 理 ， 提 供 了 更 高 抽象 层次 的 API。 原 本 用 Hadoop MapReduce 实 
现 的 代码 需要 上 千 行 ， 而 在 Spark 这 个 API 上 可 以 减少 到 数 十 行 。 

随 着 Spark 的 不 断 壮大 ， 为 了 向 更 广泛 的 受众 群体 提供 分 布 式 处 理 ，Spark 1.3 引入 了 新 
的 DataFrame 编程 模型 ， 在 概念 上 ，DataFrame 类 似 于 关系 数据 库 的 表 ， 或 在 R/Python 中 的 
DataFrame， 这 一 组 件 的 引入 ， 简 化 了 Spark SQL 的 处 理 ， 极 大 方便 了 数据 科学 方面 的 应 用 。 
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DataFrame 编程 模型 极 大 地 简化 了 Spark SQL 的 编程 复杂 度 ， 在 开始 DataFrame 的 实践 案 
例 与 解析 之 前 ， 需 要 对 DataFrame 编程 模型 有 一 个 基础 了 解 。 


WESS al DataFrame 编程 模型 ) © H 


Spark SQL 允许 Spark 执行 用 SQL if zi, HiveQL 语言 或 者 Scala 语言 表示 的 关系 查询 。 
在 Spark 1. 3 之 前 ， 这 个 模块 的 核心 是 SchemaRDD 类 型 。SchemaRDD 由 行 (Row) 对 象 组 
成 ， 行 对 象 通过 scheme 来 描述 行 中 每 一 列 的 数据 类 型 。 

而 在 Spark 1.3 中 ， 引 入 了 DataFrame 来 重 命名 SchemaRDD 类 型 ， 在 Spark1. 3 中 ，Dat- 
aFrame 是 一 个 以 命名 列 方式 组 织 的 分 布 式 数据 集 ， 在 概念 上 类 似 于 关系 型 数据 库 中 的 一 个 
表 ， 也 相当 于 R/Python 中 的 Data Frames, DataFrame 可 以 由 结构 化 数据 文件 转换 得 到 ， 或 从 
Hive 中 的 表 得 来 ， 也 可 以 转换 自 外 部 数据 库 或 现 有 的 RDD, 

DataFrame 编程 模型 具有 的 功能 特性 有 : 

1) 从 KB 到 PB 级 的 数据 量 支持 。 

2) 多 种 数据 格式 和 多 种 存储 系统 支持 。 

3) 通过 Spark SQL 的 Catalyst 优化 器 进行 先进 的 优化 ， 生 成 代码 。 

4) 为 Python Java, Scala 和 R 语言 (SparkR) 提供 API, 

注意 : 目前 DataFrame API 支持 Scala、Java 以 及 Python。 以 下 章节 的 实践 基于 Scala 语言 。 
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这 一 节 给 出 了 一 个 集团 公司 对 人 事 信 息 处 理 场 景 的 简单 案例 ， 详 细 分 析 DataFrame 上 的 
各 种 常用 操作 ， 包 括 集团 子 公司 间 的 职工 人 事 信息 的 合并 、 职 工 的 部 门 相 关 信 息 查 询 、 职 工 
言 息 的 统计 、 关 联 职工 与 部 门 信 息 的 统计 ， 以 及 如 何 将 各 种 统计 得 到 的 结果 存储 到 外 部 存储 
系统 等 。 

在 案例 中 ， 涉 及 的 DtaFrame 实例 内 容 包 括 从 外 部 文件 构建 DataFrame, TE DataFrame 上 
比较 常用 的 操作 ， 多 个 DataFrame 之 间 的 操作 ， 以 及 DataFrame 的 持久 化 操作 等 内 容 。 


一 、 数 据 准备 
数据 准备 包含 两 部 分 内 容 ， 一 是 实践 案例 的 数据 设计 部 分 ， 二 是 将 数据 文件 上 传 到 
HDFS 存储 系统 上 。 


1. 创建 本 地 文件 的 目录 
hadoop -2.6.0 resources spark -1.3.0 -bin -hadoop2.4 tmp 
[ harli@ wxx215 cluster 13 ]$mkdir test 
[ harli@ wxx215 cluster. 13 ]$1s 
hadoop -2.6.0 resources spark — 1.3.0 — bin - hadoop2. 4 test tmp 
[ harli@ wxx215 cluster. 13 ]$cd test/ 


在 本 地 文件 目录 中 构建 包含 实践 数据 的 文件 ， 包 含 员工 信息 的 文件 、 新 增 员工 信息 的 文 
件 以 及 部 门 信息 的 文件 。 


大 数据 实例 开发 教程 


2. 编辑 文件 people. json 


[ harli@ wxx215 test |$vim people. json 

|" name": " Michael" ," job number": "001" ," age": 33," gender": "male" ," deptId" : 1," salary" : 3000} 
|" name": " Andy" ," job number": "002" ," age": 30," gender": "female" ," deptId" : 2," salary" : 4000] 
|" name" : " Justin" ," job number": "003" ," age": 19 ," gender": " male" ," deptId" : 3 ," salary" : 5000} 
|" name" : "John" ," job number": "004" ," age": 32," gender" : "male" ," deptId" : 1 , " salary" : 6000 } 
|" name": " Herry" ," job number": "005" ," age": 20," gender": " female" ," deptId" : 2, " salary" : 7000 } 
|" name" : "Jack" ," job number": " 006" ," age": 26," gender": "male" ," deptId" : 3, " salary" : 3000} 


people. json 文件 包含 了 员工 的 相关 信息 ， 每 一 列 分 别 对 应 : 员工 姓名 、 工 号 、 年 龄 、 性 
别 、 部 门 ID 以 及 薪资 。 
3. 编辑 文件 newPeople. json 


[ harli@ wxx215 test ]$vim newPeople. json 

|" name" : " John" ," job number": "007" ," age": 32, " gender": " male" ," deptId" : 1 ," salary" : 4000] 
|" name": " Herry" , "job number": "008" ," age" : 20," gender": "female" ," deptId" : 2 , " salary" : 5000} 
| " name" : " Jack" ," job number": "009" ," age": 26, " gender": "male" ," deptId" : 3, " salary" : 6000] 


该 文件 对 应 新 人 职员 工 的 信息 ， 这 里 简化 了 不 同 子 集团 员工 信息 的 结构 差异 ， 如 果子 集 
团员 工具 有 不 同 的 信息 结构 ， 可 以 通过 在 样本 类 people 中 将 缺失 的 列 设 置 为 默认 值 ， 从 而 
保证 所 有 的 员工 信息 在 结构 上 的 一 致 性 

4. 编辑 文件 department. json 

[ harli@ wxx215 test |$vim department. json 


i" name": "Development Dept", — "deptId":1j 
| "name": " Personnel Dept" , " deptld" : 2] 
| 


name": " Testing Department" ," deptld": 3 | 


department. json 文件 是 员工 的 部 门 信 息 ， 内 容 包含 部 门 的 名 称 和 部 门 D。 其 中 ， 部 门 
ID 对 应 员工 信息 中 的 部 门 D， 即 员工 的 deptld 列 。 
5. 上 传 文件 


[ harli@ wxx215 cluster_13 ]$cd hadoop - 2. 6. 0/ 

[ harli@ wxx215 hadoop — 2. 6. 0 ]$. /bin/hdfs dfs — put . . /test /user/harli 

15/04/03 10: 48: 32 WARN util. NativeCodeLoader:; Unable to load native — hadoop library for your plat- 
form... using builtin ~ java classes where applicable 

[ harli@ wxx215 hadoop - 2. 6. 0 ]$. /bin/hdfs dfs — ls /user/harli 

15/04/03 10: 48: 50 WARN util. NativeCodeLoader; Unable to load native — hadoop library for your plat- 
form... using builtin ~ java classes where applicable 


Found 5 items 


drwxr-xr-x — — harli supergroup 0 2015 - 03 -31 16:41 /user/harli/json 
drwxr-xr-x —- hari supergroup 0 2015 -03 -31 16:44 /user/harli/ parquet 
drwxr-xr-x — hari supergroup 0 2015 -04 -01 14: 09 /user/harli/resources 
drwxr-xr-x — — harli supergroup 0 2015 -03 -31 16: 10 /user/harli/save. json 
drwxr-xr-x —- hari supergroup 0 2015 -04 -03 10: 48 /user/harli/test 


将 所 需 的 三 个 文件 上 传 到 Hadoop 集群 中 ， 作 为 实践 案例 的 集群 数据 。 
1) 查看 上 传 结果 


[ harli@ wxx215 hadoop — 2. 6. 0 ]$. /bin/hdfs dfs - ls /user/harli/test 
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15/04/03 10: 54: 59 WARN util. NativeCodeLoader: Unable to load native — hadoop library for your plat- 
form... using builtin — java classes where applicable 


Found 3 items 


-rw-r--r-- harli supergroup 126 2015 -04 -03 10: 48 /user/harli/test/department. json 
-rw-r--r-- harli supergroup 282 2015 -04 -03 10: 48 /user/harli/test/newPeople. json 
-rw-r--r-- 3harli supergroup 564 2015 -04 -03 10: 48 /user/harli/test/ people. json 


通过 Hadoop 的 命令 行 ， 查 看 上 传 文件 是 否 成 功 。 可 以 看 到 ， 三 个 文件 已 经 成 功 上 传 到 
HDFS 存储 系统 上 

2) 查看 界面 显示 : Web Interface (http: //namenode: 50070/explorer. html #/user/harli/ 
test) 的 界面 信息 如 图 3. 2 所 示 。 


Hadoop Overview Datanodes Snapshot Startup Progress Utilities ~ 


Browse the file system 


Logs 
Browse Directory 
fuserfharli/test Go! 
Permission Owner Group Size Replication Block Size Hane 
TEWCECOE-O harli supergroup 126 B 3 128 MB department. json 
et harli supergroup 282 B 3 128 ME newPeople. json 
SEW RS ES harli super group 564 B 3 128 WE people. json 


Hadoop, 2014. 


图 3.2 Hadoop 文件 系统 上 传 结果 的 界面 


登录 HDFS 的 namenode 节点 ( namenode 节点 为 启动 NameNode 进程 的 节点 ， 当 前 环境 
下 的 节点 地 址 为 192. 168. 70. 214.) 的 50070 is 在 Utilities 菜单 上 单 击 Browse the file sys- 
tem 命令 ， 开始 浏 览 当 前 HDFS 的 文件 系统 信息 ， 内 容 包含 文件 的 访问 权限 、 所 有 者 、 所 有 
者 所 在 组 、 文 件 大 小 、 复 制 因 子 、 块 大 小 以 及 文件 的 名 字 。 

可 以 在 路 径 导 航 栏 部 分 输入 指定 的 目录 ， 然 后 单 击 “Go!” 按 钮 跳 转 到 该 目录 下 。 在 浏 
览 目录 文件 时 ， 可 以 通过 单 击 文件 名 来 打开 文件 具体 信息 的 窗口 ， 在 打开 的 窗口 上 还 提供 了 
文件 下 载 的 功能 。 

二 、 启 动 交互 式 界 面 

当前 以 集群 模式 启动 spark - shell 应 用 ， 在 spark 部 署 目录 下 ， 输 入 以 下 命令 


[ harli@ wxx215 spark — 1. 3. 0 — bin — hadoop2. 4 ]$. /bin/spark - shell —— master 
spark: //192. 168. 70. 214: 7077 


启动 后 出 现 如 下 信息 : 


[ harli@ wxx215 spark -1.3.0 -bin — hadoop2. 4 ]$. /bin/spark - shell — — master 
spark: //192. 168. 70. 214: 7077 
Spark assembly has been built with Hive, includingDatanucleus jars on classpath 


15/04/03 10: 58: 54 WARN util. NativeCodeLoader; Unable to load native — hadoop library for your plat- 


e 


在 启 
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form... using builtin ~ java classes where applicable 

15/04/03 10: 58: 54 INFO spark. SecurityManager ; Changing view acls to; harli 

15/04/03 10: 58: 54 INFO spark. SecurityManager: Changing modify acls to; harli 

15/04/03 10: 58: 54 INFO spark. SecurityManager ; SecurityManager ; authentication disabled; ui acls disa- 
bled;users with view permissions ; Set( harli) ; users with modify permissions ; Set( harli ) 

15/04/03 10: 58: 54 INFO spark. HttpServer : Starting HTTP Server 

15/04/03 10:58:55 INFO server. Server:jetty — 8. y. z - SNAPSHOT 

15/04/03 10: 58: 55 INFO server. AbstractConnector : Started SocketConnectorQ 0. 0. 0. 0.57536 
15/04/03 10: 58: 55 INFO util. Utils: Successfully started servicé HTTP class servet on port 57536. 


Welcome to 


/ _/ / 
VWI LY LK 

J /._/\_,////\_\ version 1.3.0 
Jf 


Using Scala version 2. 10. 4( Java HotSpot( TM) Server VM ,Java 1. 7. 0) 
Type in expressions to have them evaluated. 


Type:help for more information. 


动 界面 最 后 会 生成 SparkContext 和 SQLContext 两 个 实例 ， 对 应 sc 和 sqlContext, EL 


接 使 用 sqlContext 进行 操作 : 


15/04/03 10: 59: 03 INFOrepl. SparkILoop : Created spark context. . 

Spark context available as sc. 

15/04/03 10: 59: 03 INFOrepl. SparkILoop : Created sql context( with Hive support). . 

SQL context available assqlContext. 

15/04/03 10: 59: 05 INFO cluster. SparkDeploySchedulerBackend ; Registered executor; Actor [ akka. tcp: 
//sparkExecutor@ wxx225: 18129/user/Executor# — 1906560325 | with ID 0 

15/04/03 10: 59: 05 INFO cluster. SparkDeploySchedulerBackend ; Registered executor; Actor [ akka. tcp: 

//sparkExecutor@ wxx223: 52922/user/Executor# — 1906560325 | with ID 2 

15/04/03 10: 59: 05 INFO storage. BlockManagerMasterA ctor; Registering block managerwxx225: 18869 

with 265. 0 MB RAM, BlockManagerld( 0 , wxx225 , 18869) 

15/04/03 10: 59: 05 INFO storage. BlockManagerMasterA ctor; Registering block managerwxx223: 44620 

with 265. 0 MB RAM, BlockManagerld(2 , wxx223 ,44620) 


按 【Enter】 键 后 进入 交互 式 界面 ， 开 始 案例 的 操作 。 
从 上 述 信息 中 ， 我 们 可 以 看 到 交互 式 工具 spark - shell 启动 后 创建 的 是 带 Hive 支持 的 


SQLContext， 对 应 的 提示 信息 为 : repl. SparkILoop: Created sql context (with Hive support) 。 
查找 对 应 的 源码 ， 我们 可 以 看 到 ， 在 repl. SparkLoop 类 中 构建 sqlContext 时 使 用 的 是 
HiveContext 类 ， 源 码 如 下 : 


@ DeveloperApi 
defcreateSQLContext( ) :SQLContext = | 
val name = " org. apache. spark. sql. hive. HiveContext" 
val loader = Utils. getContextOrSparkClassLoader 
try | 
sqlContext = loader. loadClass ( name) . getConstructor( classOf[ SparkContext ] ) 
. newInstance( sparkContext) . asInstanceOf[ SQLContext | 


EUER EE Spark SQL 实践 案例 与 解析 


logInfo( " Created sql context( with Hive support)..") 
| catch | 
case cnf; java. lang. ClassNotFoundException => 
sqlContext = new SQLContext( sparkContext ) 


logInfo( " Created sql context. . " ) S 
| 


sqlContext 


| 


当 Spark 带 Hive 编译 时 ， 对 应 创建 的 就 是 HiveContext 实例 ， 而 当 该 实例 构建 失败 时 ， 
创建 的 是 SQLContxt 实例 。 

注意 : 当 我 们 使 用 spark - submit 来 提交 应 用 程序 时 ， 在 应 用 程序 中 ， 应 该 用 相同 的 方式 去 构建 SQL- 
Context 实例 ， 通 过 该 实例 进行 Spark SQL 的 操作 。 同 时 ， 使 用 spark - shell 时 ,已 经 自动 导入 一 些 隐 式 转 
换 ， 对 应 的 ， 使 用 spark -submit 提交 时 ， 应 在 代码 中 手动 加 入 ， 如 import sqlContext. implicits. _。 


、 案 例 实 操 
这 部 内容 对 员工 信息 以 及 员工 的 部 门 信息 进行 处 理 ， 以 下 是 各 类 数据 操作 的 具体 操作 


及 分 析 。 
1. 修改 日 志 等 级 
import org. apache. log4j. | Level, Logger} 
Logger. getLogger( " org. apache. spark" ). setLevel( Level. WARN) 
Logger. getLogger( " org. apache. spark. sql" ). setLevel( Level. WARN ) 


这 个 操作 的 目的 是 为 了 简化 界面 的 输出 。 在 交互 界面 上 输入 以 上 代码 ， 将 日 志 级 别 调整 
到 Level. WARN, 
2. 加 载 文件 
scala > val people = sqlContext. jsonFile( " hdfs: //wxx214: 9000/user/harli/test/ people. json" ) 


15/04/03 11:03:01 INFOmapred. FileInputFormat ; Total input paths to process :1 
people; org. apache. spark. sql. DataFrame = | age : bigint , deptId : bigint , gender: string, job number: string, 


name: string, salary ; bigint | 

scala > val dept = sqlContext. load( " hdfs: //wxx214: 9000/ user/harli/test/ department. json" ," json" ) 
15/04/03 11:03:01 INFOmapred. FileInputFormat ; Total input paths to process :1 

dept: org. apache. spark. sql. DataFrame = [ deptld ; bigint , name ; string | 


这 里 提供 了 两 种 方式 加 载 之 前 上 传 到 HDFS 存储 系统 上 的 员工 信息 文件 和 部 门 信 息 文 
件 ， 可 以 看 到 ， 文件 加 载 后 得 到 了 两 个 DataFrame 实例 : people a dept， 同 时 根据 文件 内 容 
自动 地 推导 出 两 个 DataFrame 实例 的 schema 信息 ，schema 信息 包含 了 列 的 名 字 以 及 对 应 的 
数据 类 型 ， 如 dept 的 schema 信息 为 [ deptId:bigint name: ide 

构建 DataFrame 的 其 他 方式 及 其 解析 参见 后 续 章 节 的 内 容 。 

3. 以 表格 形式 查看 DataFrame 信息 


scala > people. show 
15/04/03 11:05:06 INFOmapred. FileInputFormat : Total input paths to process:1 


agedeptld gender job number name salary 

33 1 male 001 Michael 3000 
30 2 female 002 Andy 4000 
19 3 male 003 Justin 5000 
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32 1 male — 004 John 6000 
20 2 female 005 Herry 7000 
26 3 male 006 Jack 3000 


scala » people. show 
15/04/03 11:05: 55 INFOmapred. FileInputFormat ; Total input paths to process :1 


agedeptld gender job number name salary 

33 1 male 001 Michael 3000 
30 2 female 002 Andy 4000 
19 3 male 003 Justin 5000 
32 1 male 004 John 6000 
20 2 female 005 Herry 7000 
26 3 male 006 Jack 3000 


通过 show 方法 ， 可 以 以 表格 形式 输出 各 个 DataFrame 的 内 容 。 如 上 所 示 ， 可 以 看 到 该 
DataFrame 加 载 的 文件 路 径 数 ， 以 及 包含 的 各 个 列 名 和 数据 内 容 ， 默认 情况 下 会 显示 Dat- 
aFrame 的 前 20 条 记录 ， 可 以 通过 设置 show 方法 的 参数 来 指定 输出 的 记录 条 数 ， 如 peo- 
ple. show(10) ， 显 示 前 10 条 记录 。 

4. DataFrame 基本 信息 的 查询 


scala > people. columns 


res22: Array [ String] = Array ( age , deptId , gender, job number , name , salary ) 

scala » people. count 

15/04/03 11: 11: 14 INFOmapred. FileInputFormat ; Total input paths to process :1 

res23: Long 26 

scala > people. take(3) 

15/04/03 11:11: 15 INFOmapred. FileInputFormat ; Total input paths to process :1 

res24: Array [ org. apache. spark. sql. Row] = Array ([ 33,1 , male, 001 , Michael , 3000 ] ,| 30,2, female, 
002 , Andy ,4000] , [ 19,3 , male, 003 , Justin ,5000 ] ) 

scala » people. toJSON. collect 

res25 ; Array | String] = Array ( | " age" 133," deptId" : 1," gender" :" male" ," job number" ;" 001" ," 
name" ; " Michael" ," salary" :3000] , | " age" :30," deptId" :2," gender" ;" female" ," job number" ;" 
002" ," name" ;" Andy", "salary" :4000} , |" age" :19, " deptId" :3," gender" ;" male" ," job number" ;" 
003" ," name" ;" Justin" ," salary" : 5000 } , | " age" : 32," deptld" : 1," gender" :" male" ," job num- 
ber" ;" 004" ," name" :" John" ," salary" : 6000} , | "age" :20," deptId" : 2," gender" :" female" ," job 
subest :" 005" ," name" :" Herry" ," salary" :7000} , | "age" :26," deptId" :3," gender" :" male" ," job 
number" ;"006" ," name" :" Jack" ," salary" :3000] ) 


这 部 分 内 容 针 对 员工 信息 的 DataFrame， 即 people， 进 行 一 些 基本 信息 的 查询 操作 ， 具 


体 包含 : 
1) 使 用 DataFrame 的 columns 方法 ， 查 询 people 包含 的 全 部 列 (Columns) 信息 ， 以 数 
组 形式 返回 列 名 组 。 


2) 使 用 DataFrame 的 count 方法 ， 统 计 people 包含 的 记录 条 数 ， 即 员工 个 数 。 

3) 使 用 DataFrame 的 take 方法 ， 获 取 前 三 条 员工 记录 信息 ， 并 以 数组 形式 呈现 
出 来 。 

4) 最 后 使 用 DataFrame 的 toJSON 方法 ， 将 people 转换 为 JsonRDD 类 型 ， 并 使 用 RDD 
的 collect 方法 返回 其 包含 的 员工 信息 。 


EUER EE Spark SQL 实践 案例 与 解析 


5. 对 员工 信息 进行 条 件 查询 ， 并 输出 结 
scala > people. filter(" gender = malé " ). count 
15/04/03 11:08: 13 INFOmapred. FileInputFormat ; Total input p, aths to process :1 


res12: Long = 4 

scala > people. filter($" gender" !== "female" ). count S 
15/04/03 11:08: 14 INFOmapred. FileInputFormat : Total input paths to process :1 

res13 ; Long =4 
scala > people. filter($" age" >25). show 

15/04/03 11:08: 15 INFOmapred. FileInputFormat ; Total input paths to process :1 


agedeptld gender job number name salary 

33 1 male 001 Michael 3000 
30 2 female 002 Andy 4000 
32 1 male 004 John 6000 
26 3 male — 006 Jack 3000 


scala > people. where($" age" >25). show 
15/04/03 11:08: 17 INFOmapred. FileInputFormat ; Total input paths to process :1 


agedeptld gender job number name salary 

33 1 male 001 Michael 3000 

30 2 female 002 Andy 4000 

325.1 male 004 John 6000 

26 3 male 006 Jack 3000 

scala > people. where($" age" >25 && $" gender" ===" male" ). show 
15/04/03 17:01:31 INFOmapred. FileInputFormat ; Total input paths to process :1 
agedeptld gender job number name salary 

33 1 male 001 Michael 3000 

32 1 male 004 John 6000 

26 3 male — 006 Jack 3000 


scala » people. where( * age » 25). show 
15/04/03 11:08:35 INFO mapred. FileInputFormat : Total input paths to process :1 


agedeptld gender job number name salary 

33 1 male 001 Michael 3000 
30 2 female 002 Andy 4000 
32 1 male 004 John 6000 
26 3 male — 006 Jack 3000 


这 部 分 内 容 针 对 员工 信息 的 DataFrame ， 即 people， 进 行 一 些 条 件 查 询 的 操作 ， 具 体 包 含 : 
1) 使 用 count 方法 统计 了 “gender” 列 为 “male” 的 员工 数量 。 
2) 基于 “age” 和 “gender” 这 两 列 ， 使 用 不 同 的 查询 条 件 ， 不 同 的 DataFrame API, BH 
where fil filter 方法 ， 对 员工 信息 进行 过 滤 。 
3) 最 后 仍然 使 用 show 方法 ， 将 查询 结果 以 表格 形式 呈现 出 来 。 
4) 在 各 个 例子 中 ， 使 用 了 几 种 不 同 的 方式 ， 作 为 查询 条 件 的 参数 。 
6. 根据 指定 的 列 名 ， 以 不 同方 式 进行 排序 
scala > people. sort ($"job number". ase ,col(" deptId" ). desc). show 
15/04/03 11:12: 49 INFOmapred. FileInputFormat : Total input paths to process :1 


agedeptld gender job number name salary 
33 1 male 001 Michael 3000 
30 2 female 002 Andy 4000 


19 3 male 003 Justin 5000 
32 1 male — 004 John 6000 
20 2 female 005 Herry 7000 
26 3 male 006 Jack 3000 


scala » people. sort($" job number" ). show(3) 
15/04/03 11:13:35 INFOmapred. FileInputFormat 


agedeptld gender job number name salary 

33 1 male 001 Michael 3000 
30 2 female 002 Andy 4000 
19 3 male 003 Justin 5000 


scala > people. sort( " job number" ). show(3 ) 
15/04/03 11:13:35 INFOmapred. FileInputFormat 


agedeptld gender job number name salary 

33 1 male 001 Michael 3000 
30 2 female 002 Andy 4000 
19 3 male 003 Justin 5000 


scala > people. sort($" job number". asc). show 


15/04/03 11:13:57 INFOmapred. FileInputFormat 
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:Total input paths to process :1 


:Total input paths to process :1 


:Total input paths to process :1 


agedeptld gender job number name salary 

33 1 male 001 Michael 3000 
30 2 female 002 Andy 4000 
19 3 male 003 Justin 5000 
32 1 male — 004 John 6000 
20 2 female 005 Herry 7000 
26 3 male 006 Jack 3000 


这 部 分 内 容 针 对 员工 信息 的 DataFrame, 


Bl people， 基 于 “job number" fH "deptld" JI), 


用 sort 方法， 并 以 不 同方 式 进行 排序 ， 并 输出 结果 ， 具 体 包含 : 


1) 以 先 “job number” 列 升序 ， 然 后 再 “deptd” 列 降序 的 方式 ， 对 people 进行 排序 ， 


并 输出 排序 后 的 内 容 ; 这 里 给 出 了 两 种 指定 列 的 方式 。 


2) 以 “job number” 列 进行 默认 排序 (JE), ， 并 显示 排序 后 的 3 条 记录 ; 这 里 也 给 出 


了 两 种 指定 列 的 方式 。 


3) 以 “job number” 列 ， 指 定 降序 方式 进行 排序 ， 并 显示 排序 后 的 3 条 记录 。 
7. 为 员工 信息 增加 一 列 : 等 级 (“level”) 


scala > people. withColumn( " level" , people( " age" )/ 10). show 
15/04/03 12:16: 19 INFOmapred. FileInputFormat ; Total i; 


nput paths to process; | 


agedeptld gender job number name salary level 

33 1 male 001 Michael 3000 3.3 
30 2 female 002 Andy 4000 3.0 
19 3 male 003 Justin 5000 1.9 
32 1 male 004 John 6000 3.2 
20 2 female 005 Herry 7000 2.0 
26 3 male 006 Jack 3000 2.6 


这 部 分 内 容 针对 员工 信息 的 DataFrame, 


列 等 级 信息 ， 列 名 为 “level”。 


即 people, ia withColumns 方法 增加 了 新 的 一 
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其 中 ，withColumns 方法 的 “level” 参 数 指定 了 新 增 列 的 列 名 ， 第 二 个 参数 指定 了 该 列 
的 实例 ， 即 通过 “age” 列 转换 得 到 的 新 列 ， 而 people( " age" ) 方 法 则 调用 了 DataFrame 的 
apply 方法 ,返回 “age” 列 名 对 应 的 列 。 

8. 修改 工 号 列 名 


scala > people. columns 


res85 ; Array | String] = Array( age , deptId , gender, job number, name, salary ) 


scala > people. withColumnRenamed( " job number" ," jobId" ). columns 


icsstis Array U Siring = Airay Cage deptld gender, jobld;namesaláiy) 
这 部 分 内 容 针 对 员工 信息 的 DataFrame, Ell people, 383: withColumnRenamed 方法 修改 其 
现 有 的 列 名 。 
在 示例 中 ,将 people 的 “job number” 列 名 修改 为 “jobIld”。 通 过 交互 式 反馈 信息 可 以 
看 到 列 名 已 经 被 修改 。 
注意 ， 修 改 的 列 名 必须 存在 ， 如 果 不 存在 ， 不 会 报错 ， 但 列 名 不 会 修改 ,例如 : 


scala > val rnDept = people. withColumnRenamed( " job numbe" ," jobId" ) 

rnDept: org. apache. spark. sql. DataFrame = [ age : bigint , deptId ; bigint , gender; string, job number: string, 
name ; string, salary ; bigint | 

scala » rnDept. columns 

res150 ; Array| String] = Array( age , deptld , gender, job number , name , salary ) 

scala » people. columns 


res151 ; Array[ String] = Array( age , deptId , gender, job number , name , salary ) 


在 示例 中 ， 指 定 修改 的 “job numbe” 列 名 拼写 错误 ， 可 以 看 到 列 名 并 没有 被 修改 。 

9. 增加 新 员工 
scala > val newPeople = sqlContext. jsonFile( " hdfs: //wxx214: 9000/user/harli/test/ newPeople. json" ) 
15/04/03 12: 18: 30 INFOmapred. FileInputFormat ; Total input paths to process :1 
newPeople : org. apache. spark. sql. DataFrame = [ age: bigint, deptId ; bigint, gender: string, job number: 
string , name ; string, salary ; bigint | 
scala » newPeople. show 
15/04/03 12: 19: 16 INFOmapred. FileInputFormat ; Total input paths to process :1 


agedeptld gender job number name salary 


32 1 male 007 John 4000 
20 2 female 008 Herry 5000 
26 3 male 009 Jack | 6000 


scala > people. unionAll ( newPeople) . show 
15/04/03 12: 18: 32 INFOmapred. FileInputFormat ; Total input paths to process :1 
15/04/03 12: 18: 32 INFOmapred. FileInputFormat ; Total input paths to process :1 


agedeptld gender job number name salary 

33 1 male 001 MichaeP000 
30 2 female 002 Andy 4000 
19 3 male 003 Justin 5000 
32 1 male 004 John 6000 
20 2 female 005 Herry 7000 
26 3 male 006 Jack | 3000 
32 1 male 007 John 4000 
20 2 female 008 Herry 5000 


e 
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26 3 male 009 Jack 6000 


示例 中 使 用 jsonFile 方法 加 载 了 新 员工 信息 的 文件 ， 然 后 调用 people 的 unionAll 方法 ， 
将 新 加 载 的 newPeople 合并 进来 。 

可 以 看 到 ， 最 终 合 并 时 ， 对 应 BORA XP BEEN 2， 即 对 应 了 新 旧 两 个 员工 信息 的 文 
件 ， 这 是 因为 加 载 文 件 是 lazy 性 质 的 。 这 里 由 于 没有 对 DataFrame 进行 缓存 ， 因 此 合并 时 会 
重新 进行 加 载 。 

10. 查 同名 员工 


scala > val groupName = people. unionAll( newPeople). groupBy( col ( " name" ) ). count 
groupName : org. apache. spark. sql. DataFrame = [ name; string, count ; bigint ] 

scala » groupName. show 

15/04/03 13:44: 10 INFOmapred. FileInputFormat ; Total input paths to process :1 
15/04/03 13:44: 10 INFOmapred. FileInputFormat ; Total input paths to process ; 1 
name count 

Justin 1 
Jack 2 
John 2 
Andy 1 
Michael 1 
Herry 2 

scala > groupName. filter($" count" >1). show 

15/04/03 13:44: 12 INFOmapred. FileInputFormat; Total input paths to process ; 1 
15/04/03 13: 44: 12 INFOmapred. FileInputFormat; Total input paths to process ; 1 


name count 


Jack 2 
John 2 
Herry 2 


scala > people. unionAll ( newPeople) . groupBy ( col ( " name" ) ). count. filter($" count" >1). show 
15/04/03 13: 44: 13 INFOmapred. FileInputFormat ; Total input paths to process ; 1 
15/04/03 13: 44: 13 INFOmapred. FileInputFormat ; Total input paths to process :1 


name count 


Jack 2 
John 2 
Herry 2 


示例 中 ， 首 先 通过 unionAll 方法 将 people 和 newPeople 进行 合并 ， 然 后 使 用 groupBy 77 
法 将 合并 后 的 DataFrame 按照 “name” 列 进行 分 组 ， 分 组 操作 会 得 到 一 个 GroupData 类 的 实 

i groupName， 实 例会 自动 带 上 分 组 的 列 ， 以 及 “count” 列 ; GroupData 类 型 提供 了 一 组 非 
常 有 用 的 统计 操作 ， 这 里 继续 调用 它 的 count 方法 ， 最 终 实现 对 员工 名 字 的 分 组 计数 。 

接着 上 对 groupName 实例 进行 过 滤 操 作 ， 使 用 filter 方法 ， 获 取 “name” 列 的 计数 大 于 1 
un 并 表格 形式 予以 呈现 。 

个 示例 ， 使 用 函数 式 编程 范式 对 前 两 个 的 合并 ， 得 到 的 结果 是 一 样 的 。 
Tees. 
scala Sval depdgg = people: proupBy( ^depili) aes CMupt 


| " age" — »" max" ! 


| " gender" =. > " count" 
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|» 
depAgg:org. apache. spark. sql. DataFrame = | deptld : bigint , MAX (age#0L) : bigint, COUNT( gender#2 ) : 
bigint ] 
scala » depAgg. show : 
15/04/03 15: 04: 56 INFOmapred. FileInputFormat ; Total input paths to process ; 1 > 
deptId MAX (age#0L) COUNT( gender#2 ) 
1 33 2 
2 30 2 
3 26 2 


scala > depAgg. toDF( " deptId" ," maxAge" ," countGender" ). show 
15/04/03 15:04:57 INFOmapred. FileInputFormat ; Total input paths to process :1 
deptIldmaxAgecountGender 


1 33 2 
2 30 2 
3 26 2 


这 里 继续 对 分 组 统计 实例 进行 解析 。 首 先 针对 people 的 “deptId” 列 进行 分 组 ， 分 组 后 
得 到 的 GroupData 实例 继续 调用 agg 方法 ， 分 别 对 “age” 列 求 最 大 值 ， 对 “gender” 进 行 
计数 。 

由 交互 式 界面 反馈 可 知 ， 最 终 返 回 DataFrame， 并 且 它 的 schema X [ deptId: bigint, MAX 
(age#0L) :bigint,COUNT( gender#2) ;bigint] ， 即 除了 带 上 分 组 用 的 “deptd” 列 外 ， 还 带 上 
列 聚 合 操作 后 的 两 列 信息 。 

最 后 一 步 ， 调 用 DataFrame 的 toDF 方法 ， 重 新 命名 之 前 聚合 得 到 的 depAgg 的 全 部 列 名 ， 
增加 了 列 名 的 可 读 性 。 

12. 名 字 去 重 


scala > val unionPeople = people. unionAll ( newPeople) . select( " name" ). show 
15/04/03 15: 17: 23 INFOmapred. FileInputFormat : Total input paths to process :1 
15/04/03 15:17:23 INFOmapred. FileInputFormat : Total input paths to process :1 
name 

Michael 

Andy 

Justin 

John 

Herry 

Jack 

John 

Herry 

Jack 


unionPeople ; Unit = ( ) 


scala > val unionPeople = people. unionAll( newPeople) . select( " name" ). distinct. show 
15/04/03 15: 17: 35 INFOmapred. FileInputFormat : Total input paths to process :1 
15/04/03 15: 17: 35 INFOmapred. FileInputFormat ; Total input paths to process ; 1 
name 

Justin 

Jack 

John 

Andy 
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Michael 


Herry 
unionPeople ; Unit = ( ) 


示例 中 首先 显示 新 旧 员工 信息 合并 后 的 “name” 列 ， 作 为 后 续 去 重 的 比较 对 象 
通过 union Al 新 旧 员 工 信 息 ， 并 只 选择 其 中 的 “name” 列 信息 后 ， 出 现 的 “name” 信息 
就 出 现 列 重 复 ， 通 过 继续 调用 DataFrame 的 distinct 方法 后 ， 可 以 去 除 重 复 的 记录 数据 。 

13. 对 比 新 旧 员 工 表 


scala > people. select( " name" ). except( newPeople. select($" name" ) ). show 
15/04/03 15: 20: 08 INFOmapred. FileInputFormat : Total input paths to process: 
15/04/03 15: 20: 08 INFOmapred. FileInputFormat : Total input paths to process: 
name 

Michael 

Justin 

Andy 

scala » people. select( " name" ). intersect( newPeople. select($" name" ) ). show 
15/04/03 15: 20: 11 INFOmapred. FileInputFormat ; Total input paths to process :1 
15/04/03 15: 20: 11 INFOmapred. FileInputFormat ; Total input paths to process :1 


eS -— 


name 
Jack 
John 
Herry 
示例 中 ， 包 含 了 对 people 和 newPeople 两 个 员工 信息 的 “name” 列 的 两 种 比较 方式 ， 具 


体 如 下 。 

1) 第 一 种 : 分 别 选 取 people 和 newPeople 两 个 员工 信息 的 “name” 列 ， 然 后 通过 调用 
except 方法 ， 获 取 在 people 中 出 现 、 但 同时 不 在 newPeople 中 出 现 的 “name” 人 信息， 最 后 以 
表格 形式 呈现 结 

2) 第 二 种 : 求 “name” 的 交集 ， 即 分 别 选取 people 和 newPeople 两 个 员工 信息 的 
“name” 列 ， 然 后 通过 调用 intersect 方法 ， 获 取 在 people 中 出 现 、 但 同时 又 在 newPeople 中 出 
现 的 “name” 人 信息， 最 后 以 表格 形式 呈现 结 

14. join 两 个 DataFrame 实例 


scala > people. join( dept, people( " deptId" ) === dept(" deptId" ) ," outer" ). show 
15/04/03 15: 25: 55 INFOmapred. ; FilelnputFormat ; Total input paths to process ; 1 
15/04/03 15: 25: 55 INFOmapred. FileInputFormat ; Total input paths to process :1 


agedeptld gender job number name salary deptld name 


33 1 male 001 Michael 3000 1 Development Dept 
32 1 male — 004 John 6000 1 Development Dept 
20 2 female 005 Herry 7000 2 Personnel Dept 

30 2 female 002 Andy 4000 2 Personnel Dept 

19 3 male 003 Justin 5000 3 Testing Department 
26 3 male 006 Jack 3000 3 Testing Department 


在 示例 中 ，people 通过 调用 join 方法 ， 基 于 people 的 “deptId” 列 与 dept 的 “deptId” 列 
进行 outer join 联合 操作 。 由 于 people 与 dept 的 两 个 DataFrame 中 用 于 联合 的 列 名 相同 ， 都 
“dept”， 因 此 ， 指 定 联合 条 件 表达 式 时 ,需要 指出 列 所 属 的 具体 DataFrame SK, 
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报错 。 
在 作为 join 联合 条 件 的 列表 达 式 中 ， 如 果 列 名 不 同 ， 则 可 以 直接 使 用 列 名 ， 比 如 : 
scala > val rnDept = dept. withColumnRenamed(" deptId" , " id" ) 


rnDept: org. apache. spark. sql. DataFrame = [ id: bigint , name: string | > 
scala > val jionP = people. join( mDept,$" deptId" ===$"id" ," outer" ) 


jionP ; org. apache. spark. sql. DataFrame = [ age: bigint , deptId : bigint , gender: string, job number; string, 
name: string, salary ; bigint , id : bigint , name : string | 

scala » jionP. show 

15/04/03 15: 42: 19 INFOmapred. FileInputFormat ; Total input paths to process :1 

15/04/03 15: 42: 19 INFOmapred. FileInputFormat ; Total input paths to process ; 1 


agedeptld gender job number name salary id name 

33 1 male 001 Michael 3000 1 Development Dept 
32 1 male — 004 John 6000 1 Development Dept 
30 2 female 002 Andy 4000 2 Personnel Dept 

20 2 female 005 Herry 7000 2 Personnel Dept 

26 3 male — 006 Jack 3000 3 Testing Department 
19 3 male 003 Justin 5000 3 Testing Department 


15. join 后 按 部 门 名 分 组 统计 
scala > valjoinGp = jionP. groupBy ( dept( " name" ) ). agg( Map( 

| "age" - »" max", 
| " gender" — >" count" 
D) 

joinGp : org. apache. spark. sql. DataFrame = [ name: string, MAX ( age#0L) : bigint, COUNT ( gender#2) : 

bigint ] 

scala » joinGp. show 

15/04/03 17: 11: 16 INFOmapred. FileInputFormat ; Total input paths to process :1 

15/04/03 17: 11: 16 INFOmapred. FileInputFormat ; Total input paths to process :1 


name MAX ( agest0L) COUNT( gender#2 ) 
Personnel Dept 30 2 
Testing Department 26 2 
Development Dept 33 2 


这 里 使 用 了 上 例 中 基于 “deptId” 列 对 people 与 dept 进行 join 的 结果 ， 即 joinP。 

通过 对 joinP 调用 groupBy 方法 ， 在 联合 结果 上 继续 根据 dept 的 “name” 列 进行 分 组 ， 
并 在 分 组 后 对 指定 的 列 执行 指定 的 聚合 操作 ， 这 里 对 “age” 列 求 最 大 值 ， 对 “count” 列 进 
行 计数 。 

最 后 显示 的 结果 上 ， 按 部 门 名 称 ， 统计 部 门 员工 最 大 的 年 龄 以 及 部 门 的 员工 的 性 别 
(只 有 “female”,“male” 两 种 ) 。 

16. 保存 为 表 

在 对 各 个 DataFrame 实例 进行 操作 后 ， 获 取 了 目标 信息 ， 如 果 后 续 需 要 这 些 信息 的 话 ， 
就 必须 执行 持久 化 操作 ， 即 将 文件 保存 到 存储 系统 或 表 中 。 

下 面 给 出 几 种 持久 化 的 案例 。 

1) 首先 将 实例 持久 化 到 表 中 。 


scala > jionP. saveAsTable(" peopleDeplJion" ) 
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15/04/03 17:05:56 INFOmetastore. HiveMetaStore :0:get_table:db = default tbl = peop 
ledepljion 
15/04/03 17:05:56 INFOHiveMetaStore. audit; ugi = harli 

ip = unknown -ip ~ addremd = get_table ; db = default tbl = peopledepljion 

15/04/03 17:05:56 INFOmetastore. HiveMetaStore :0 : get. database ; default 

15/04/03 17:05:56 INFOHiveMetaStore. audit: ugi = harli 

ip = unknown -ip — addremd = get, database ; default 

15/04/03 17:05:56 INFOmetastore. HiveMetaStore ;0 : get_table :db = default tbl = peopledepljion 
15/04/03 17:05: 56 INFOHiveMetaStore. audit; ugi = harli 

ip = unknown -ip — addremd = get_table ; db = default tbl = peopledepljion 

SLF4J: Failed to load class "org. slf4j. impl. StaticLoggerBinder" . 

SLF4J : Defaulting to no — operation( NOP) logger implementation 

SLF4J:See http://www. slfAj. org/codes. html#StaticLoggerBinder for further details. 

15/04/03 17:05:57 INFOmapred. FileInputFormat : Total input paths to process ; 1 

15/04/03 17:05:57 INFOmapred. FileInputFormat : Total input paths to process :1 

15/04/03 17:06:09 INFOhadoop. ParquetFileReader ; Initiating action with parallelism ;5 

15/04/03 17: 06: 11 INFOmetastore. HiveMetaStore : 0; create, table; Table ( tableName ; peopledepljion , 
dbName: default, owner: harli , createTime ; 1428051971, lastAccessTime: 0, retention: 0, sd; StorageDe- 


scriptor( cols: [ FieldSchema ( name: col, type: array < string > , comment; from deserializer ) ] , location: 


null , inputFormat ; org. apache. hadoop. mapred. SequenceFileInputF ormat , outputFormat ; org. apache. 
hadoop. hive. ql. io. HiveSequenceFileOutputFormat , compressed ; false, numBuckets; — 1 , serdelnfo ; Ser- 
Delnfo( name; null, serializationLib ; org. apache. hadoop. hive. serde2. MetadataTypedColumnsetSerDe , pa- 
rameters ; | serialization. format = 1 , path = hdfs ;//wxx214 :9000/user/hive/ warehouse/peopledepljion | ) , 
bucketCols:[ ],sortCols; [ ] , parameters: | | , skewedInfo; SkewedInfo ( skewedColNames: | ] , skewed- 
ColValues :| ] ,skewedColValueLocationMaps: | | ) ) , partitionKeys :| ] , parameters; | spark. sql. sources. 


schema. part. 0 = | "type" :" struct" ," fields": [ | "name" ;" age" ," type" :" long" , " nullable" : true, 
metadata": | | | , | " name" ;" deptId" ," type" :" long" ," nullable" : true," metadata" : | } | , | " name" ;" 
gender" ," type" :" d ," nullable" ; true," metadata"; | | | , | " name" :" job number" ," RA " 
string" , "nullable" : " metadata" : | | | , | " name" ;" name" ," type" :" string" ," nullable" : true, 
metadata" :|] ] , |" pues "salary" ," type" :" long" ," nullable" : true," metadata"; | | | , | "name" ;" 
id" ," type" :" long" ," nullable" ; true," metadata"; | | | , | "name" ;" name" ," type" :" string" ," nul- 


lable" : true," metadata": | | | ]] , EXTERNAL = FALSE, spark. sql. sources. schema. numParts = 1, 
spark. sql. sources. provider = org, apache. spark. sql. parquet} , viewOriginalText ; null , viewExpandedText ; 
null, tableType ; MANAGED. TABLE) 

15/04/03 17:06: 11 INFOHiveMetaStore. audit; ugi = harli ip = unknown - ip — addremd = create, ta- 
ble: Table( tableName ; peopledepljion , dbName ; default , owner: harli , createTime ; 1428051971 , lastAccess- 
Time :0 , retention; 0 , sd: StorageDescriptor ( cols; [ FieldSchema ( name; col, type; array < string > , com- 
ment: from deserializer) | , location; null, inputFormat; org. apache. hadoop. mapred. SequenceFileInput- 
Format , outputFormat ; org. apache. hadoop. hive. ql. io. HiveSequenceFileOutputFormat , compressed ; false , 
numBuckets ; — 1 , serdeInfo ; SerDeInfo ( name ; null , serializationLib ; org. apache. hadoop. hive. serde2. 
MetadataTypedColumnsetSerDe , parameters: | serialization. format = 1 , path = hdfs;//wxx214 ; 9000/user/ 
hive/warehouse/peopledepljion] ) , bucketCols:[ ] , sortCols; [ ] , parameters: | | , skewedInfo; SkewedInfo 
( skewedColNames: [ ] , skewedColValues: | ] , skewedColValueLocationMaps; | | ) ) , partitionKeys:[ ] ， 


parameters ; | spark. sql. sources. schema. part. O = | " type" :" struct" ," fields" ; [ | " name" ;" age" ," 
type" :" long" ," nullable" ; true," metadata"; | | ] , | " name" :" deptlId" ," type" :" long" ," nullable" ; 
true," metadata"; | } | , | "name" ;" gender" ," type" :" string" ," nullable" : true," metadata"; | ] ] , |" 
name" :" job number" ," ram :" string" ," nullable" ; true," metadata": | | |, | " name" ;" name" ," 
type" :" string" ," nullable" :t "metadata": | } | , | " name" ;" salary" ," type" :" long" ," nullable" : 


true," metadata" : | |}, |" Mus "id" ," type" :" long" ," nullable" ; true," metadata"; | 1] , | " 
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name" ;" name" ," type" :" string" ," nullable"; true," metadata"; | |] ]] , EXTERNAL = FALSE, 


spark. sql. sources. schema. numParts = 1 , spark. sql. sources. provider = org. apache. spark. sql. parquet | , 
viewOriginalText ; null , viewExpandedText : null, tableType; MANAGED, TABLE) 

15/04/03 17:06: 11 INFO hive. log: Updating table stats fast forpeopledepljion 

15/04/03 17:06: 11 INFO hive. log: Updated size of tablepeopledepljion to 154795 

15/04/03 17:06: 11 INFOmetastore. HiveMetaStore ;0 : get_table :db = default tbl = peopledepljion 
15/04/03 17: 06: 11 INFOHiveMetaStore. audit:ugi = harli ip = unknown — ip — addremd = get. table ; db 
= default tbl = peopledepljion 


此 时 ， 使 用 的 默认 的 hive， 没 有 连接 到 现 有 的 hive 环境 上 。 

通过 调用 DataFrame 的 saveAsTable 方法 ， 将 实例 持久 化 到 hive 的 “peopleDeplJion” 表 
中 。 对 应 地 ， 会 在 HDFS 上 构建 hive 用 户 的 目录 ， 即 /user/hive， 同 时 生成 hive 的 仓库 目录 ， 
即 /user/hive/warehouse ， 每 个 构建 的 hive 表 ， 都 会 对 应 到 该 仓库 下 的 一 个 子 日 录 , 持久 化 
DataFrame 实例 后 ， 对 应 创建 列 “peopleDeplJion” 这 个 子 日 录 。 

通过 Web Interface 界面 (http: //namenode: 50070) 查看 日 录 结 构 ， 如 图 3.3 Bros, Hip 
namenode 为 启动 NameNode 进程 的 节点 ， 当 前 环境 下 的 节点 地 址 为 192. 168. 70. 214。 


Hadoop Overview Datanodes Snapshot Startup Progress Utilities ~ 


Browse the file system 


Logs 
Browse Directory 
fuser/hive/warehouse Gal 
Permission Owner Group Size Repli cation Block Size Hane 
drwxr-xr-x harli supergroup DB ü DB peopledepljion 
drwxr-xr-x harli supergroup DB 0 DB src 
drwxr-xr-x harli supergroup 0B ü O8 sre err 


3.3 Hadoop 文件 系统 持久 化 后 的 界面 


表 相 关 的 操作 还 有 registerTempTable 方法 ， 这 部 分 将 在 下 一 章节 进行 分 析 。 
2) 保存 为 json 文件 


scala > hsqlDF. save(" /user/harli/hsqlDF. json" ," json" ) 

15/04/03 17: 20: 34 INFO Configuration. deprecation; mapred. tip. id is deprecated. Instead, use mapre- 
duce. task. id 

15/04/03 17: 20: 34 INFO Configuration. deprecation; mapred. task. id is deprecated. Instead, use mapre- 
duce. task. attempt. id 

15/04/03 17: 20: 34 INFO Configuration. deprecation; mapred. task. is. map is deprecated. Instead, use 


mapreduce. task. ismap 

15/04/03 17: 20: 34 INFO Configuration. deprecation: mapred. task. partition is deprecated. Instead, use 
mapreduce. task. partition 

15/04/03 17:20: 34 INFO Configuration. deprecation : mapred. job. id is deprecated. Instead, use mapre- 
duce. job. id 


这 里 使 用 save 方法 ， 通 过 在 方法 中 指定 数据 源 为 “json”， 可 以 将 DataFrame 实例 持久 


大 数据 实例 开发 教程 


化 到 指定 的 路 径 上 。 
通过 Web Interface 界面 查看 保存 为 json 文件 的 结果 ， 如 图 3. 4 所 示 ， 在 /user/harli 路 径 
下 生成 列 指定 的 hsqlDF. json 文件 。 


Startup Progress Utilities 


Browse Directory 


fuser/harli| Go! 
Permission Owner Group Size Repli cation Block Size Hane 

drwxr-xr-x harli supergroup DB ü 0E hsqlDF. json 
drwxr-xr-x harli supergroup OB ü 0B json 

drwxr-xr-x harli supergroup DB ü DB parquet 


图 3.4 Hadoop 文件 系统 保存 为 json 后 的 界面 
3) 保存 为 parquet 文件 


scala > hsqlDF. save( " /user/harli/hsqlDF. parquet" ," parquet" ) 
15/04/03 17: 21: 42 INFOhadoop. ParquetFileReader: Initiating action with parallelism ;5 
这 里 使 用 save 方法 ， 通 过 在 方法 中 指定 数据 源 为 “parquet”， 可 以 将 DataFrame 实例 持 
久 化 到 指定 的 路 径 上 。 
通过 Web Interface 界面 查看 保存 为 parquet 文件 的 结果 ， 如 图 3.5 所 示 ， 在 /user/harli 
路 径 下 生成 列 指定 的 hsqlDF. parquet 文件 。 


Startup Progress Utilities 


Browse Directory 


| fuserfharli | Gol | 
Permi ssion Omer Group Size Repli cati on Block Size Hame 
drwxr-xr-x harli Supergroup OB 0 0B hsqlDF. json 
drwxr-xr-x harli supergroup OB ü OB hsqLDF. parquet 
drwxr-xr-x harli supergroup 0B ü 0 B json 
drwxr-xr-x harli supergroup 0B 0 ü B parquet 


图 3.5  Hadoop 文件 系统 保存 为 parquet 后 的 界面 
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这 部 分 内 容 是 在 上 一 节 的 基础 上 ， 对 某 些 案例 进行 扩展 并 深入 分 析 。 其 中 ， 部 分 案例 源 
自 官 网 ， 在 此 对 其 进行 深入 解析 。 

—. DataFrame 5 RDD 间 的 交互 

DataFrame 可 以 从 结构 化 文件 、hive 表 、 外 部 数据 库 以 及 现 有 的 RDD 加 载 构建 得 到 。 具 
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体 的 结构 化 文件 、hive 表 、 外 部 数据 库 的 相关 加 载 示例 可 以 参考 章节 3.3 Spark SQL 处 理 各 
种 数据 源 的 案例 与 解析 部 分 。 这 里 主要 针对 从 现 有 的 RDD 来 构建 DataFrame 进行 实践 与 
解析 。 
Spark SQL 支持 两 种 方法 将 存在 的 RDD 转换 为 DataFrame。 © 
1) 第 一 种 方法 是 使 用 反射 来 推 新 包含 特定 对 象 类 型 的 RDD 的 模式 。 在 写 Spark 程序 的 
同时 ， 已 经 知道 了 模式 ， 这 种 基于 反射 的 方法 可 以 使 代码 更 简洁 并 且 程 序 工作 得 更 好 。 
2) 第 二 种 方法 是 通过 一 个 编程 接口 来 实现 ， 这 个 接口 允许 构造 一 个 模式 ， 然 后 在 存在 
的 RDD 上 使 用 它 。 虽 然 这 种 方法 代码 较为 宛 长， 但 是 它 允 许 在 运行 期 之 前 不 知道 列 以 及 列 
的 类 型 的 情况 下 构造 DataFrame。 
(一 ) 通过 反射 机 制 构建 DataFrame 
利用 反射 推断 模式 ，Spark SQL 的 Scala 接口 支持 将 包含 样本 类 的 RDD 自动 转换 为 Dat- 
aFrame。 这 个 样本 类 定义 了 表 的 模式 。 样 本 类 的 参数 名 字 通 过 反射 来 读 取 ， 然 后 作为 列 的 名 
字 。 样 本 类 可 以 拒 套 或 者 包含 复杂 的 类 型 如 序列 或 者 数组 。 这 个 RDD 可 以 隐 式 转化 为 一 个 
DataFrame ， 然 后 注册 为 一 个 表 ， 表 可 以 在 后 续 的 SQL 语句 中 使 用 。 
以 people. txt 作为 测试 数据 ， 使 用 Scala 语言 来 创建 DataFrame。 
1. 首先 ， 查 看 people. txt 数据 
[ harli@ wxx215spark |$hdfs dfs — cat /user/harli/data/people. txt 
Michael ,33 
Andy ,30 
Justin ,16 


John ,20 
Herry ,19 


使 用 Hadoop AY hdfs dfs — cat 命令 查看 people. txt 文件 内 容 。 
注意 : 这 里 已 经 将 HADOOP. HOME/bin 添加 到 环境 变量 PATH 中 ， 因 此 直接 使 用 hdfs 命令 。 
2. 定义 people. xml 对 应 的 样本 类 People, ， 并 加 载 文件 ， 构 建 DataFrame 


scala > case class People( name: String, age; Int) 


defined class People 

scala > val rdd = sc. textFile( " /user/harli/data/people. txt" ). map(_. split(" ," ) ). map( p => People( p 
(0) , p( 1). trim. toInt) ) 

rdd : org. apache. spark. rdd. RDD[ People] = MapPartitionsRDD[ 35 ] at map at < console > :24 

scala » rdd. collect 

15/04/06 08: 12: 26 INFOmapred. FileInputFormat : Total input paths to process :1 

res9 : Array| People] = Array ( People ( Michael, 33 ) , People ( Andy, 30) , People ( Justin, 16 ) , People 
(John ,20) ,People( Herry ,19) ) 

scala > val people = rdd. toDF( ) 

people; org. apache. spark. sql. DataFrame = [ name: string, age : int | 


scala » people. show 


name age 
Michael 33 
Andy 30 
Justin 16 
John 20 


Herry 19 
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示例 中 : 

1) 首先 定义 样本 类 People。 

2) 之 后 通过 SparkContext 的 textFile 方法 将 文件 加 载 进 来 ,用 “,” 作 为 分 隔 符 ， 将 每 
一 行 数据 分 割 为 包含 两 个 元 素 ("name" Fil "age" ) 的 数组 ， 继 续 使 用 map 方法 将 数组 映 
射 成 样本 类 People ， 此 时 可 以 得 到 对 应 该 文件 的 RDD 实例 ， 其 元 素 类 型 为 样本 类 People。 

3) 最 后 在 RDD 实例 上 使 用 toDF 方法 ， 转 换 为 对 应 的 DataFrame 实例 people. 

注意 : 在 以 spark - submit 方式 提交 的 应 用 程序 中 ， 不 要 将 样本 类 People 定义 在 和 SparkContext 实例 
相同 的 作用 域 中 ， 即 需要 将 样本 类 定义 在 main 方法 外 或 object 外 。 

用 Scala 函数 范式 修改 以 上 代码 : 


scala > val people = sc. textFile ( " /user/harli/ data/ people. txt" ). map(_. split(" ," ) ). map( p => Peo- 
ple(p(0) , p(1). trim. toInt) ). toDF( ) 


people; org. apache. spark. sql. DataFrame = [ name: string, age : int | 
4) 将 DataFrame 注册 成 临时 表 ， 并 对 表 执 行 SQL 查询 语句 。 


scala > people. registerTempTable(" people" ) 
// 查 看 当前 数据 库 信息 


scala > sqlContext. sql( " show databases" ). show 


result 
default 
// 查 看 当前 的 全 部 表 名 


scala > sqlContext. tableNames 


res4 ; Array [ String] = Array( people , pokes , pokes_test ,t) 

// ARAL” people" ,并 返回 DataFrame 

scala > sqlContext. table( " people" ) 

res5 :org. apache. spark. sql. DataFrame = [ age : string , name; string | 
// 查 看 当前 " default" 数据 库 中 的 表 , 返 回 类 型 为 DataFrame 


scala > sqlContext. tables(" default" ) 


res6 : org. apache. spark. sql. DataFrame = [ tableName ; string , isTemporary ; boolean | 
scala > sqlContext. tables( " default" ). show 


tableNameisTemporary 
people true 
pokes false 


pokes. test false 

t false 

//SQLContext 的 sql 函数 使 应 用 程序 可 以 用 编程 方式 运行 sql 查询 

// 并 返回 结果 DataFrame 实例 

scala > val teenagers = sqlContext. sql ( " SELECT name FROM people WHERE age >=13 AND age <= 
19") 

15/04/06 08: 42:01 WARN conf. HiveConf; DEPRECATED ; Configuration property hive. metastore. local 


no longer has any effect. Make sure to provide a valid value for hive. metastore. uris if you are connecting 


to a remote metastore. 

15/04/06 08: 42: 01 INFO parse. ParseDriver; Parsing command; SELECT name FROM people WHERE 
age >=13 AND age <=19 

15/04/06 08: 42: 01 INFO parse. ParseDriver; Parse Completed 


teenagers : org. apache. spark. sql. DataFrame = [ name: string | 
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// Fl DataFrame 的 map 方法 E 转换 每 一 条 记录 tt 的 列 可 以 通过 下 标 来 访问 
scala > teenagers. map( t =>" Name;" +t(0) ). collect( ). foreach( println ) 
15/04/06 08: 42: 13 INFOmapred. FileInputFormat ; Total input paths to process ; 1 


Name: Justin 
Name: Herry > 
调用 people AY registerTempTable 方法 ， 注 册 为 临时 表 “people”， 注 册 后 就 可 以 通过 SQL 
方法 使 用 sqlContext 支持 的 SQL 语句 对 该 临时 表 进 行 操作 。 示 例 中 使 用 “SELECT” 语 句 从 
表 “people” 中 查找 出 年 龄 在 13 到 19 之 间 的 人 员 的 名 字 。 
SQL 查询 语句 得 到 的 结果 类 型 是 DataFrame 实例 ， 支 持 所 有 普通 RDD 的 全 部 操作 。 示 
例 中 最 后 一 行 代码 将 DataFrame 的 每 一 条 记录 用 map 方法 转换 为 字符 串 ， 字 符 串 中 提取 了 
“name” 列 ， 然 后 用 collect 方法 收集 记录 并 在 界面 打印 出 来 。 可 以 单 步 执行 这 一 行 代 码 ， 查 
看 每 个 API 操作 的 返回 类 型 。 
(二 ) 用 编程 指定 模式 构建 DataFrame 
当 样 本 类 不 能 提前 确定 (例如 ,记录 的 结构 是 经 过 编码 的 字符 串 ， 或 者 一 个 文本 集合 
将 会 被 解析 ， 不 同 的 字段 投影 给 不 同 的 用 户 )， 一 个 DataFrame 里 实例 可 以 通过 下 面 三 个 步 
又 来 创建 。 
1) 从 原来 的 RDD 创建 一 个 元 素 类 型 为 行 (Row) 的 RDD。 
2) 创建 由 一 个 StructType 表示 的 模式 (Schema) ， 与 第 一 步 创建 的 RDD 的 Row 的 结构 
相 匹 配 。 
3) 在 元 素 类 型 为 Row 的 RDD 上 ， 通 过 applySchema 方法 应 用 第 二 步 构 建 的 Schema。 
Scala 语言 创建 DataFrame 的 方式 如 下 : 
1. 加 载 文件 ， 并 构建 文件 对 应 的 Schema 的 列 名 字符 串 


// 构 建 一 个 RDD 实例 people 

scala > val people = sc. textFile( " /user/harli/data/ people. txt" ) 

people : org. apache. spark. rdd. RDD [ String] = /user/harli/data/people. txt MapPartitionsRDD [ 47] at 
textFile at < console > :22 

// 指 定 一 个 Schema 包含 的 列 名 


scala > val schemaString = " name age" 


schemaString : String = name age 


2. SA org. apache. spark. sql. types. _， 构 建 Schema 信息 


scala > import org. apache. spark. sql. types. _ 

import org. apache. spark. sql. types. _ 

// 构 建 一 个 Schema ,为 每 一 列 构建 一 个 StructField ,这 里 的 split 分 隔 符 
// 和 前 面 定义 列 名 时 一 致 ,都 是 空格 。 

// 指 定 每 一 列 都 为 StringType 类 型 , 且 可 以 为 null 


scala > val schema = 


| StruetType( 

| schemaString. split(" " ). map( fieldName => StructField ( fieldName , StringType, true) ) ) 
schema; org. apache. spark. sql. types. StructType = StructType ( StructField ( name, StringType, true ) , 
StructField( age , StringType, true) ) 


注意 : 官网 示例 中 的 import 语句 有 问题 ，StructType 等 类 型 在 org. apache. spark. sql. types 中 。 
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3. 将 RDD 的 字符 串 元 素 转 换 为 DataFrame 的 Row 类 型 


// 将 RDD 中 的 每 条 记录 转换 成 一 个 行 ( Row) 实例 

scala > val rowRDD = people. map( . split(" ," ) ). map( p => Row(p(0) ,p(1). trim) ) 

rowRDD : org. apache. spark. rdd. RDD[ org. apache. spark. sql. Row] = MapPartitionsRDD[ 49] at map at 
< console > :35 


4. 应 用 之 前 定义 的 Schema, [££ DataFrame 


scala > val peopleDataFrame = sqlContext. createDataFrame( rowRDD , schema) 


peopleDataFrame :org. apache. spark. sql. DataFrame = [ name: string, age; string | 


5. 注册 到 临时 表 中 ， 并 通过 SQL 查询 语句 从 该 临时 表 中 构建 出 新 的 DataFrame 实例 


scala > people. registerTempTable(" people" ) 

scala > val results = sqlContext. sql( "SELECT name FROM people" ) 

15/04/06 08: 59: 24 WARN conf. HiveConf; DEPRECATED ; Configuration property hive. metastore. local 
no longer has any effect. Make sure to provide a valid value for hive. metastore. uris if you are connecting 
to a remote metastore. 

15/04/06 08: 59: 24 INFO parse. ParseDriver; Parsing command; SELECT name FROM people 

15/04/06 08: 59: 24 INFO parse. ParseDriver; Parse Completed 


results : org. apache. spark. sql. DataFrame = | name: string | 


6. 将 新 构建 的 results 的 内 容 输出 到 控制 台 


scala > results. map(t => " Name;" +t(0) ). collect( ). foreach( println) 
15/04/06 08: 59: 38 INFOmapred. FileInputFormat; Total input paths to process ; 1 
Name ; Michael 

Name ; Andy 


Name: Justin 


Name: John 


Name ; Herry 


(=) DataFrame 5 RDD 间 的 关系 
构建 一 个 DataFrame， 然 后 调用 rdd 方法 ， 用 toDebugString 查看 rdd 的 Lineage KA, 


// 定 义 样本 类 ,使 用 spark - submit 提交 应 用 时 ,定义 放 到 main 方法 或 object 外 面 
// 不 要 和 样本 类 的 使 用 代码 放 在 相同 的 作用 域内 


scala > case class People( name: String, age ; Int) 


defined class People 
// 加 载 文 件 , 并 将 每 一 行 split 后 构建 People 实例 (对 应 调用 了 People 的 apply 方法 ) 
scala > val people = sc. textFile ( " /user/harli/data/people. txt" ). map(_. split(",")).map(p => Peo- 
ple(p(0) , p(1). trim. toInt) ). toDF( ) 
people; org. apache. Spark. sql. DataFrame = [ name: string, age : int | 
// 查 看 rdd 的 Lineage 关系 
scala > people. rdd. toDebugString 
15/04/06 09: 12: 05 INFOmapred. FileInputFormat : Total input paths to process:1 
res2 :String = 
(2) MapPartitionsRDD[ 10] at map at DataFrame. scala:889 | | 
MapPartitionsRDD[9 ] at mapPartitions at ExistingRDD. scala;35 [ | 


|  MapPartitionsRDD[8] at map at < console > :24 [ ] 
| MapPartitionsRDD[7 | at map at < console > :24 [ ] 
| /user/harli/data/ people. txt MapPartitionsRDD[ 6 | at textFile at < console > :24 [ ] 


€t3& Spark SQL 实 践 案例 与 解析 


| /user/harli/data/ people. txt HadoopRDD| 5] at textFile at < console > :24 | ] 


从 MapPartitionsRDD[ 10] at map at DataFrame. scala; 889 [ ] 这 一 行 ， 可 以 看 到 从 Dat- 
aFrame 转换 得 到 RDD 时 ( 即 这 里 的 people. rdd 调用 ) ， 实 际 上 内 部 是 调用 了 DataFrame 的 
map 方法 ， 将 DataFrame 的 Row 转换 为 RDD 的 元 素 。 这 可 以 参考 前 面 构建 DataFrame 的 三 个 > 
步骤 。 | 


缓存 表 ( 列 式 存储 ) 的 案例 与 解析 ) 


这 部 分 内 容 可 用 于 性 能 调 优 ， 通 过 将 数据 缓存 到 内 存 来 提高 性 能 。 

Spark SQL 可 以 通过 调用 n cacheTable ( " tableName" ) 方 法 来 缓存 使 用 柱状 格 
RAR, AE, Spark 将 会 仅仅 浏览 需要 的 列 并 且 自 动 地 压缩 数据 以 减少 内 存 的 使 用 以 及 
垃圾 回收 的 压力 。 可 以 通过 调用 sqlContext. uncacheTable ( " tableName" ) 77 1 f£ PS f£ P Jl 
除 表 。 

注意 : 如 果 调 用 schemaRDD. cache( ) 而 不 是 sqlContext cacheTable (... )， 表 将 不 会 用 柱状 格式 来 组 
A ( 即 列 式 存 储 ) 。 在 这 种 情况 下 ， 强 烈 推 荐 调用 sqlContext cacheTable (... )。 

可 以 在 SQLContext 上 使 用 setConf 方法 或 者 在 用 SQL 时 运行 “SET key = value". 命令 来 
配置 内 存 缓存 ， 属 性 部 分 配置 信息 如 表 3. 1 所 示 。 


表 3.1 用 “SET key = value” 命令 的 部 分 属性 配置 


属性 名 称 默认 值 Ey 义 
spark. sql. inMemoryColumnarStorage. ! 当 设置 为 true 时 ，Spark SQL 将 为 基于 数据 统计 信息 的 每 列 自动 
compressed MUR 选择 一 个 压缩 算法 
spark. sql. inMemoryColumnarStorage. 10000 柱状 缓存 的 批 数据 大 小 。 更 大 的 批 数据 可 以 提高 内 存 的 利用 率 以 
batchSiz 及 压缩 效率 ,但 有 OOM 的 风险 


对 表 进 行 缓存 的 示例 : 
1. 用 sql 方法 从 people 中 查找 数据 


scala > val results = sqlContext. sql ( "SELECT name FROM people" ) 

15/04/06 09: 27: 04 WARN conf. HiveConf; DEPRECATED ; Configuration property hive. metastore. local 
no longer has any effect. Make sure to provide a valid value for hive. metastore. uris if you are connecting 
to a remote metastore. 

15/04/06 09: 27: 04 INFO parse. ParseDriver; Parsing command; SELECT name FROM people 

15/04/06 09: 27: 04 INFO parse. ParseDriver; Parse Completed 


results ; org. apache. spark. sql. DataFrame = | name: string | 


这 里 的 people 是 在 前 面 构建 的 DataFrame 中 注册 的 表 。 
2. 对 表 进 行 缓存 


scala > sqlContext. cacheTable( " people" ) 

scala > results. show 

15/04/06 09: 24: 09 INFO spark. SparkContext : Starting job : runJob at SparkPlan. scala:121 

15/04/06 09: 24: 09 INFO scheduler. DAGScheduler:; Got job 12( runJob at SparkPlan. scala; 121) with 1 


output partitions( allowLocal = false) 
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15/04/06 09: 24: 09 INFO scheduler. DAGScheduler; Final stage: Stage 12 ( runJob at SparkPlan. scala: 
121) 

15/04/06 09: 24: 09 INFO scheduler. DAGScheduler; Parents of final stage ; List( ) 

15/04/06 09: 24: 09 INFO scheduler. DAGScheduler: Missing parents ; List( ) 

15/04/06 09: 24: 09 INFO scheduler. DAGScheduler; Submitting Stage 12 ( MapPartitionsRDD [ 26 ] at 
map at SparkPlan. scala;96) , which has no missing parents 

15/04/06 09: 24: 09 INFO storage. MemoryStore : ensureFreeSpace ( 9480) called with curMem = 313045 , 
maxMem = 280248975 

15/04/06 09: 24: 09 INFO storage. MemoryStore ; Block broadcast, 14 stored as values in memory ( esti- 
mated size 9. 3 KB, free 267. 0 MB) 

15/04/06 09: 24: 09 INFO storage. MemoryStore ; ensureFreeSpace ( 6065 ) called with curMem = 322525, 
maxMem = 280248975 

15/04/06 09: 24: 09 INFO storage. MemoryStore; Block broadcast 14. pieceO stored as bytes in memory 
(estimated size 5. 9 KB, free 267. 0 MB) 

15/04/06 09: 24: 09 INFO storage. BlockManagerInfo; Added broadcast 14. piece0 in memory on clus- 
te101 :41777 ( size :5. 9 KB, free :267. 2 MB) 

15/04/06 09: 24: 09 INFO storage. BlockManagerMaster ; Updated info of block broadcast, 14. pieceO 
15/04/06 09: 24: 09 INFO spark. SparkContext : Created broadcast 14 from broadcast at DAGScheduler. 
scala;839 
15/04/06 09: 24: 09 INFO scheduler. DAGScheduler:Submitting 1 missing tasks from Stage 12 ( MapParti- 
tionsRDD| 26] at map at SparkPlan. scala 96) 

15/04/06 09: 24: 09 INFO scheduler. TaskSchedulerImpl : Adding task set 12. 0 with 1 tasks 

15/04/06 09: 24: 09 INFO scheduler. TaskSetManager: Starting task 0.0 in stage 12. 0 ( TID 12, clus- 
ter01 , NODE LOCAL,1312 bytes) 

15/04/06 09: 24: 09 INFO storage. BlockManagerInfo; Added broadcast 14. piece0 in memory on clus- 
ter01 :34364 ( size :5. 9 KB, ,free:267.2 MB) 

15/04/06 09: 24: 09 INFO storage. BlockManagerlnfo: Added rdd, 24. 0 in memory on cluster01 : 34364 
(size :496. 0 B, free :267. 2 MB) 

15/04/06 09: 24: 09 INFO scheduler. TaskSetManager: Finished task 0.0 in stage 12. O( TID 12) in 228 
ms on clusterO1 ( 1/1) 

15/04/06 09: 24: 09 INFO scheduler. TaskSchedulerImpl : Removed TaskSet 12. 0, whose tasks have all 
completed , from pool 

15/04/06 09: 24: 09 INFO scheduler. DAGScheduler: Stage 12 ( runJob at SparkPlan. scala; 121 ) finished 
in 0. 229 s 

15/04/06 09: 24: 09 INFO scheduler. DAGScheduler: Job 12 finished; runJob at SparkPlan. scala; 121, 
took 0. 240746 s 

15/04/06 09: 24: 09 INFO spark. SparkContext : Starting job :runJob at SparkPlan. scala:121 

15/04/06 09: 24: 09 INFO scheduler. DAGScheduler:Got job 13( runJob at SparkPlan. scala:121) with 1 
output partitions( allowLocal = false ) 

15/04/06 09: 24: 09 INFO scheduler. DAGScheduler; Final stage: Stage 13 ( runJob at SparkPlan. scala: 
121) 

15/04/06 09: 24: 09 INFO scheduler. DAGScheduler; Parents of final stage ; List( ) 

15/04/06 09: 24: 09 INFO scheduler. DAGScheduler: Missing parents ; List( ) 

15/04/06 09: 24: 09 INFO scheduler. DAGScheduler; Submitting Stage 13 ( MapPartitionsRDD [ 26 ] at 
map at SparkPlan. scala;96) , which has no missing parents 

15/04/06 09: 24: 09 INFO storage. MemoryStore : ensureFreeSpace ( 9480) called with curMem = 328590, 
maxMem - 280248975 

15/04/06 09: 24: 09 INFO storage. MemoryStore; Block broadcast, 15 stored as values in memory ( esti- 
mated size 9. 3 KB, free 266. 9 MB) 
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15/04/06 09: 24: 09 INFO storage. MemoryStore :ensureFreeSpace(6065 ) called with curMem = 338070, 
maxMem - 280248975 

15/04/06 09: 24: 09 INFO storage. MemoryStore; Block broadcast 15. pieceO stored as bytes in memory 
(estimated size 5. 9 KB, free 266. 9 MB) 

15/04/06 09: 24: 09 INFO storage. BlockManagerInfo; Added broadcast 15. piece0 in memory on clus- © 
te101: 41777 (size: 5. 9 KB, free: 267. 2 MB) 

15/04/06 09: 24: 09 INFO storage. BlockManagerMaster ; Updated info of block broadcast. 15. pieceO 

15/04/06 09: 24: 09 INFO spark. SparkContext: Created broadcast 15 from broadcast at DAGSchedul- 

er. scala: 839 

15/04/06 09: 24: 09 INFO scheduler. DAGScheduler:Submitting 1 missing tasks from Stage 13 ( MapPar- 
titionsRDD[ 26 | at map at SparkPlan. scala: 96 ) 

15/04/06 09: 24: 09 INFO scheduler. TaskSchedulerImpl : Adding task set 13. 0 with 1 tasks 

15/04/06 09: 24: 09 INFO scheduler. TaskSetManager: Starting task 0.0 in stage 13.0 (TID 13, clus- 

ter01 , NODE LOCAL, 1312 bytes) 

15/04/06 09: 24: 09 INFO storage. BlockManagerInfo: Added broadcast 15. piece0 in memory on clus- 

te101: 34364 (size: 5. 9 KB, free: 267. 2 MB) 

15/04/06 09: 24: 09 INFO storage. BlockManagerlnfo: Added rdd, 24. 1 in memory on cluster01: 34364 

(size: 480. 0 B free: 267. 2 MB) 

15/04/06 09: 24: 09 INFO scheduler. TaskSetManager: Finished task 0.0 in stage 13.0 (TID 13) in 71 

ms on cluster01 (1/1) 
15/04/06 09: 24: 09 INFO scheduler. TaskSchedulerImpl : Removed TaskSet 13. 0, whose tasks have all 
completed ,from pool 
15/04/06 09: 24: 09 INFO scheduler. DAGScheduler:Stage 13 ( runJob at SparkPlan. scala: 121) finished 
in 0.072 s 
15/04/06 09: 24: 09 INFO scheduler. DAGScheduler: Job 13 finished; runJob at SparkPlan. scala: 121, 
took 0. 102063 s 

name 

Michael 

Andy 

Justin 

John 

Herry 


cacheTable 操作 是 惰性 的 ， 在 调用 sqlContext. cacheTable( " people" ) 后 ， 并 不 会 马上 进行 
缓存 ， 执 行 完 此 操作 后 对 应 的 Web Interface 界面 (http: //driver: 4040) 如 图 3. 6 所 示 。 


CA Spark shell - Storage (+| 
i v9! Bl Google 业 > 
Spark shell - Storage 9 B a 4 8 
— Jobs Stages Storage Environment Executors Spark shell application UI 
Storage 
RDD Name Storage Level Cached Partitions Fraction Cached Size in Memory Size in Tachyon Size on Disk 


3.6 Driver 界面 中 缓存 表 前 的 Storage 界面 


通过 results 的 show 方法 ， 触 发 缓存 操作 ， 这 时 仅仅 将 results 对 应 的 “name” 列 缓存 内 
存 中 。 对 应 的 Web Interface 界面 (http: //driver: 4040) 如 图 3. 7 所 示 。 

当前 的 两 个 分 区 都 已 经 全 部 缓存 到 列 内 存 中 。 

缓存 成 功 后 ， 继 续 调 用 show 方法 ， 显 示 results。 对 于 结果 中 时 间 上 的 变化 ， 这 里 是 由 
于 数据 量 比较 小 ， 绥 存 后 的 时 间 消 耗 只 减少 了 一 点 。 代 码 如 下 。 
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ĝo |& cluster01 tor ~ @| |B Google a à & 
Soo TW Jobs Stages | Storage | Environment Executors Spark shell application Ul 
Storage 
RDD Name Storage Level Cached Partitions Fraction Cached Size in Memory Size in Tachyon Size on Disk 
In-memory table people Memory Deserialized 1x Replicated 2 100% 976.08 0.08 0.068 


图 3.7 Driver 界面 中 缓存 表 触 发 后 的 Storage FLT 


scala > results. show 

15/04/06 09: 24: 38 INFO spark. SparkContext :Starting job :runJob at SparkPlan. scala: 121 

15/04/06 09: 24: 38 INFO scheduler. DAGScheduler: Got job 18 ( runJob at SparkPlan. scala: 121) with 1 
output partitions ( allowLocal = false ) 

15/04/06 09: 24: 38 INFO scheduler. DAGScheduler: Final stage: Stage 18( runJob at SparkPlan. scala: 
121) 
15/04/06 09: 24: 38 INFO scheduler. DAGScheduler; Parents of final stage ; List( ) 

15/04/06 09: 24: 38 INFO scheduler. DAGScheduler: Missing parents ; List( ) 

15/04/06 09: 24: 38 INFO scheduler. DAGScheduler; Submitting Stage 18 ( MapPartitionsRDD [ 32] at 
map at SparkPlan. scala:96 ) , which has no missing parents 

15/04/06 09: 24: 38 INFO storage. MemoryStore ; ensureFreeSpace(9872) called with curMem - 378797 , 
maxMem - 280248975 
15/04/06 09: 24: 38 INFO storage. MemoryStore; Block broadcast 20 stored as values in memory ( esti- 
mated size: 9. 6 KB, free: 266. 9 MB) 

15/04/06 09: 24: 38 INFO storage. MemoryStore ; ensureFreeSpace( 6564) called with curMem = 388669 , 
maxMem - 280248975 
15/04/06 09: 24: 38 INFO storage. MemoryStore; Block broadcast 20. pieceO stored as bytes in memory 
(estimated size 6. 4 KB free: 266. 9 MB) 

15/04/06 09: 24: 38 INFO storage. BlockManagerInfo; Added broadcast 20. piece0 in memory on clus- 
te101: 41777 (size: 6. 4 KB free: 267. 2 MB) 

15/04/06 09: 24: 38 INFO storage. BlockManagerMaster ; Updated info of block broadcast, 20. piece0 
15/04/06 09: 24: 38 INFO spark. SparkContext: Created broadcast 20 from broadcast at DAGSchedul- 
er. scala: 839 

15/04/06 09: 24: 38 INFO scheduler. DAGScheduler;Submitting 1 missing tasks from Stage 18 ( MapPar- 
titionsRDD[ 32] at map at SparkPlan. scala: 96 ) 

15/04/06 09: 24: 38 INFO scheduler. TaskSchedulerImpl : Adding task set 18.0 with 1 tasks 

15/04/06 09: 24: 38 INFO scheduler. TaskSetManager:; Starting task 0.0 in stage 18.0 (TID 18, clus- 
ter01 , PROCESS. LOCAL, 1312 bytes) 

15/04/06 09: 24: 38 INFO storage. BlockManagerInfo: Added broadcast 20, piece0 in memory on clus- 
ter01: 34364 (size: 6. 4 KB, free: 267. 2 MB) 

15/04/06 09: 24: 38 INFO scheduler. TaskSetManager: Finished task 0.0 in stage 18.0 (TID 18) in 45 
ms on cluster01 (1/1) 
15/04/06 09: 24: 38 INFO scheduler. TaskSchedulerImpl : Removed TaskSet 18. 0, whose tasks have all 
completed ,from pool 
15/04/06 09: 24: 38 INFO scheduler. DAGScheduler:Stage 18 ( runJob at SparkPlan. scala: 121) finished 
in 0. 046 s 
15/04/06 09: 24: 38 INFO scheduler. DAGScheduler; Job 18 finished; runJob at SparkPlan. scala: 121, 
took 0. 057244 s 
15/04/06 09: 24: 38 INFO spark. SparkContext : Starting job : runJob at SparkPlan. scala: 121 

15/04/06 09: 24: 38 INFO scheduler. DAGScheduler: Got job 19 ( runJob at SparkPlan. scala: 121) with 1 


output partitions ( allowLocal = false) 
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15/04/06 09: 24: 38 INFO scheduler. DAGScheduler; Final stage:Stage 19( runJob at SparkPlan. scala: 
121) 
15/04/06 09: 24: 38 INFO scheduler. DAGScheduler; Parents of final stage ; List( ) 

15/04/06 09: 24: 38 INFO scheduler. DAGScheduler: Missing parents ; List( ) 

15/04/06 09: 24: 38 INFO scheduler. DAGScheduler; Submitting Stage 19 ( MapPartitionsRDD [ 32] at S 
map at SparkPlan. scala: 96 ) ,which has no missing parents 

15/04/06 09: 24: 38 INFO storage. MemoryStore ; ensureFreeSpace(9872) called with curMem = 395233, 
maxMem = 280248975 
15/04/06 09: 24: 38 INFO storage. MemoryStore; Block broadcast 21 stored as values in memory ( esti- 
mated size 9. 6 KB, free 266. 9 MB) 

15/04/06 09: 24: 38 INFO storage. MemoryStore ; ensureFreeSpace( 6564) called with curMem 2 405105 , 
maxMem = 280248975 
15/04/06 09: 24: 38 INFO storage. MemoryStore; Block broadcast 21. pieceO stored as bytes in memory 
(estimated size 6. 4 KB, free 266. 9 MB) 

15/04/06 09: 24: 38 INFO storage. BlockManagerInfo; Added broadcast 21. piece0 in memory on clus- 
te101 :41777 (size: 6. 4 KB, free: 267. 2 MB) 

15/04/06 09: 24: 38 INFO storage. BlockManagerMaster ; Updated info of block broadcast, 21. pieceO 
15/04/06 09: 24: 38 INFO spark. SparkContext; Created broadcast 21 from broadcast at DAGSchedul- 
er. scala: 839 

15/04/06 09: 24: 38 INFO scheduler. DAGScheduler;Submitting 1 missing tasks from Stage 19 ( MapPar- 
titionsRDD[ 32 ] at map at SparkPlan. scala: 96) 

15/04/06 09: 24: 38 INFO scheduler. TaskSchedulerImpl : Adding task set 19.0 with 1 tasks 

15/04/06 09: 24: 38 INFO scheduler. TaskSetManager: Starting task 0.0 in stage 19.0 (TID 19, clus- 
ter01 , PROCESS. LOCAL, 1312 bytes) 

15/04/06 09: 24: 38 INFO storage. BlockManagerInfo; Added broadcast 21. piece0 in memory on clus- 
te101: 34364 (size: 6. 4 KB, free: 267. 2 MB) 

15/04/06 09: 24: 38 INFO scheduler. TaskSetManager: Finished task 0.0 in stage 19. 0 (TID 19) in 51 
ms on cluster01 (1/1) 
15/04/06 09: 24: 38 INFO scheduler. TaskSchedulerImpl : Removed TaskSet 19. 0, whose tasks have all 
completed ,from pool 
15/04/06 09: 24: 38 INFO scheduler. DAGScheduler:Stage 19 ( runJob at SparkPlan. scala: 121) finished 
in 0.052 s 
15/04/06 09: 24: 38 INFO scheduler. DAGScheduler: Job 19 finished; runJob at SparkPlan. scala: 121 , 
took 0. 059765 s 

name 

Michael 

Andy 

Justin 

John 

Herry 


调用 uncacheTable TERMAH.: 


scala > sqlContext. uncacheTable( " people" ) 
15/04/06 09: 36: 22 INFOrdd. MapPartitionsRDD ; Removing RDD 24 from persistence list 
15/04/06 09: 36: 22 INFO storage. BlockManager; Removing RDD 24 


调用 后 ， 可 以 查看 Web Interface 界面 ， 内 存 会 马上 释放 。 


大 数据 实例 开发 教程 


3.2.5 DataFrame API 的 应 用 案例 与 分 析 


针对 相同 功能 的 API 进行 分 组 ， 基 本 上 以 官方 网 站 上 APT 的 顺序 给 出 应 用 案例 。 
—. collect 与 collectAsList 
1. 定义 

def collect( ) : Array[ Row] 

def collectAsList( ) :List[ Row | 


2. 功能 描述 

collect 返回 一 个 数组 ， 包 含 DataFrame 中 包含 的 全 部 Rows。 
collectAsList 返回 一 个 Java List， 包 含 DataFrame 中 包含 的 全 部 Rows, 
3. 示例 


scala > val df = sqlContext. jsonFile( " /user/harli/test/people. json" ) 

15/04/04 08: 06: 23 INFOmapred. FileInputFormat : Total input paths to process: 1 

df: org. apache. spark. sql. DataFrame = [ age: bigint, deptld: bigint, gender; string, job number; string, 
name ; string, salary ; bigint ] 

scala » df. show 

15/04/04 08: 07: 17 INFOmapred. FileInputFormat ; Total input paths to process: 1 


agedeptld gender job number name salary 

33 1 male 001 Michael 3000 
30 2 female 002 Andy 4000 
19 3 male 003 Justin 5000 
32 1 male 004 John 6000 
20 2 female 005 Herry 7000 
26 3 male 006 Jack 3000 


scala » df. collect 

15/04/04 08: 06: 30 INFOmapred. FileInputFormat : Total input paths to process :1 

res3 ; Array [ org. apache. spark. sql. Row] = Array ([33, 1 , male, 001 , Michael, 3000 ] , [ 30,2, female, 
002 , Andy ,4000 ] ,[ 19,3 , male,003 , Justin, 5000 | , [ 32,1 , male, 004 , John,6000 ] , [20,2 , female ,005 , 
Herry ,7000 | , [26,3 , male,006 , Jack ,3000 | ) 

scala » df. collectAsList 

res5 ; java. util. List[ org. apache. spark. sql. Row] = [ [ 33,1, male, 001 , Michael, 3000 ] , [30,2 , female, 
002 , Andy ,4000 ] ,[ 19,3 , male,003 , Justin 5000 ] , [ 32,1 , male, 004 , John,6000 ] , [ 20,2, female ,005 , 
Herry ,7000 | , [26,3 , male,006 , Jack ,3000 | | 


4. 示例 解析 

案例 中 首先 加 载 列 people. json 文件 ， 然 后 以 表格 形式 呈现 其 内 容 。 

两 个 collect 型 的 方法 都 可 以 获取 df 的 全 部 Rows 数据 ， 只 是 返回 的 类 型 不 同 。 调 用 col- 
lect 方法 ,返回 的 是 数组 ， 数 组 元 素 的 类 型 为 org. apache. spark. sql. Row; 调用 collectAslist , 
返回 类 型 java. util. List[ org. apache. spark. sql. Row], 

—. count 

1. 定义 


def count( ) :Long 
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2. 功能 描述 
返回 DataFrame 的 rows 个 数 。 
3. 示例 

scala > df. count 


15/04/04 08: 14: 16 INFOmapred. FileInputFormat ; Total input paths to process:1 
res6 ; Long 2 6 


=., first 
1. 定义 
def first( ) :Row 
2. 功能 描述 
返回 DataFrame 的 第 一 个 row。 
3. 示例 
scala > df. first 
15/04/04 08: 16: 04 INFOmapred. FileInputFormat ; Total input paths to process:1 
res7 :org. apache. Spark. sql. Row = [33,1 , male,001 , Michael ,3000 ] 
, head 
1. 定义 
def head( ) :Row 
def head ( n;Int) ; Array[ Row ] 
2. 功能 描述 
不 带 参 数 的 head 方法 ， 返 回 DataFrame 的 第 一 个 Row。 指 定 参 数 n 时 ， 则 返回 前 n 个 


Rows, 

3. 示例 
scala > df. head 
15/04/04 08: 16: 10 INFOmapred. FileInputFormat ; Total input paths to process ; 1 
res8 :org. apache. spark. sql. Row = [33,1 , male,001 , Michael ,3000 | 
scala » df. head(4) 
15/04/04 08: 16: 15 INFOmapred. FileInputFormat ; Total input paths to process ;1 
res9 ; Array [ org. apache. spark. sql. Row] = Array ([33, 1 , male, 001 , Michael, 3000 ] , [ 30,2, female, 
002 , Andy ,4000 ] ,[ 19,3 , male,003 , Justin, 5000 | , [32,1 , male,004 , John ,6000 | ) 

Th. show 

1. 定义 


def show( ) : Unit 
def show ( numRows ; Int) ; Unit 
2. 功能 描述 
不 带 参 数 的 show 方法 ， 以 表格 形式 显示 DataFrame 的 前 20 个 Rows。 指 定 参 数 numRows 
时 ， 则 显示 指定 numRows 个 数 的 Rows。 
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3. 示例 


2. 


scala » df. show 
15/04/04 08: 17: 04 INFOmapred. FileInputFormat ; Total input paths to process :1 


agedeptld gender job number name salary 

33 1 male 001 Michael 3000 
30 2 female 002 Andy 4000 
19 3 male 003 Justin 5000 
32 1 male 004 John 6000 
20 2 female 005 Herry 7000 
26 3 male 006 Jack 3000 


scala > df. show(4) 
15/04/04 08: 17: 08 INFOmapred. FileInputFormat ; Total input paths to process ;1 


agedeptld gender job number name salary 
33 1 male 001 Michael 3000 
30 2 female 002 Andy 4000 
19 3 male 003 Justin 5000 
32 1 male 004 John 6000 
x. take 

定义 
def take(n:Int) :Array[ Row] 

功能 描述 


返回 DataFrame 中 指定 的 前 n 个 Rows, 
3. 示例 


scala > df. take(4) 

15/04/04 08: 21: 41 INFOmapred. FileInputFormat ; Total input paths to process ; 1 

res14; Array[ org. apache. spark. sql. Row] = Array ( [33,1 , male, 001 , Michael, 3000 ] , [ 30,2 , female, 
002 , Andy ,4000 ] ,[ 19,3 , male,003 , Justin, 5000 | , [32,1 , male,004 , John ,6000 ] ) 


+t., cache 


1. 


2. 


定义 
def cache( ) :DataFrame. this. type 


功能 描述 


将 DataFrame 绥 存 到 内 存 中 。 


3. 


示例 


scala > df. cache 

res15 :df type = [ age: bigint , deptld : bigint, gender: string, job number: string, name : string, salary : bigint | 
scala » df. count 

res16; Long =6 

scala > df. take(6 ) 

res17 ; Array[ org. apache. spark. sql. Row] = Array ( [ 33,1, male, 001 , Michael, 3000 ] , [30,2, female, 
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002 , Andy ,4000 ] ,[19,3,male,003 ,Justin ,5000 ] , [ 32,1 , male, 004 , John,6000 ] , [20,2 , female ,005 , 
Herry ,7000 | , [26,3 ,male ,006 , Jack ,3000 ] ) 


可 以 看 到 ， 当 执行 了 cache 操作 后 ， 对 DataFrame 执行 操作 时 ， 不 需要 再 从 原始 数据 源 
加 载 数 据 。 
JK, Columns e» 
1. 定义 
def columns ; Array[ String] 


2. API 的 功能 描述 
以 数组 形式 返回 DataFrame 的 全 部 列 名 。 
3. 示例 


scala > df. columns 


res18 ; Array | String] = Array( age , deptId , gender, job number, name, salary ) 


FL, dtypes 
1. 定义 
def dtypes:Array[ (String, String) | 
2. 功能 描述 
以 数组 形式 返回 DataFrame 的 所 有 列 名 及 其 对 应 数据 类 型 。 
3. 示例 


scala > df. dtypes 
res20 ; Array | (String, String) ] = Array ( ( age, LongType ) , ( deptId , LongType ) , ( gender, StringType ) , 
(job number, StringType) , (name, StringType) , (salary, LongType) ) 


+, explain 
1. 定义 


def explain( ) : Unit 
def explain( extended ; Boolean) ; Unit 


2. 功能 描述 

这 两 个 方法 用 于 调试 目的 ， 不 带 参 数 时 ， 仅 将 DataFrame 的 物理 计划 打印 到 控制 台 上 ; 
当 指定 参数 extended X true 时 ， 打 印 所 有 计划 到 控制 台 上 ， 包 括 物理 计划 、 逻 辑 计 划 。 

3. 示例 


scala > df. explain 

== Physical Plan == 
InMemoryColumnarTableScan [ age#6L, deptId&7L , gender#8 ,job number#9 , namest10 , salaryt11L] ,| ] , 
( InMemoryRelation [ age#6L , deptId#7L, gender#8 ,job number#9 , namest10 , salary#11L | , true, 10000, 
StorageLevel (true, true, false, true, 1 ) , ( PhysicalRDD [ age#6L, deptId £7L, gender#8, job number#9 , 
name#10 ,salary#11L | , MapPartitionsRDD[ 19] at map at JsonRDD. scala:41) , None) 
scala » df. explain( true) 

== Parsed Logical Plan == 
Relation[ age#6L , deptId#7L, gender#8 ,job number#9 , namest10 , salary#11L | JSONRelation( /user/harli/ 
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data/people. json,1. 0, None) 

== Analyzed Logical Plan == 
Relation[ age#6L, deptId#7L, gender#8 ,job number#9 , name#10, salary#11L] JSONRelation( /user/harli/ 
data/people. json, 1.0, None) 

== Optimized Logical Plan == 
InMemoryRelation [ age#6L, deptld#7L, gender#8 , job number#9 , name#10, salary#11L] , true, 10000, 
StorageLevel (true, true, false, true, 1) , ( PhysicalRDD [ age#6L, deptld#7L, genderst8, job number#9, 
name#10, salary#11L] , MapPartitionsRDD[ 19] at map at JsonRDD. scala:41) , None 

== Physical Plan == 

InMemoryColumnarTableScan [ age#6L, deptId#7L, gender#8 ,job number#9 , name#10, salary#11L],[], 
(InMemoryRelation [ age#6L , deptId#7L, gender#8 ,job number#9 , name#10, salary#11L ] , true, 10000 , 
StorageLevel( true , true, false, true, 1) , ( PhysicalRDD [ age#6L, deptld#7L, gender#8, job number#9, 
name#10, salary#11L] , MapPartitionsRDD[ 19] at map at JsonRDD. scala:41) , None) 


Code Generation; false 


==RDD == 
HH “Code Generation; false” 可 以 看 到 ， 当 前 代码 生成 (CC) 优化 没有 开启 。 
+—, isLocal 


1. 定义 
def isLocal : Boolean 


2. 功能 描述 
如 果 collect 和 take 方法 可 以 在 本 地 运行 ( 即 不 需要 任何 Spark Executors) 时 ， 返 回 


3. 示例 


scala > val rdd = sc. parallelize( " " " | " name" ; " Yin" ," address" ;" beijing" | "" " : ; Nil) 

rdd :org. apache. spark. rdd. RDD[ String] = ParallelCollectionRDD[35 ] at parallelize at < console > :22 
scala > sqlContext. jsonRDD( rdd) 

res19 : org. apache. spark. sql. DataFrame = [ address ; string , name ; string | 

scala > sqlContext. jsonRDD( rdd). isLocal 

res20 : Boolean = false 


+=, printSchema 
1. 定义 
def printSchema( ) : Unit 
2. 功能 描述 
以 树 型 结构 将 DataFrame 的 Schema 信息 打印 到 控制 台 上 。 
3. 示例 


scala > df. printSchema 
root 
| -- age:long (nullable = true) 
| —— deptld :long (nullable = true) 
| —— gender; string (nullable = true) 


| —— job number; string (nullable = true) 
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| —— name:string (nullable = true) 


| -=- salary; long (nullable = true) 

树 节 点 由 列 名 及 其 数据 类 型 组 成 ， 其 中 nullable 表示 该 列 是 否 可 以 取 null 值 。 
十 三 、registerTempTable S 
1. 定义 

def registerTempTable ( tableName ; String) ; Unit 
2. 功能 描述 
将 DataFrame 注册 为 指定 名 字 的 临时 表 。 
3. 示例 


scala > df. registerTempTable( " people" ) 

scala > val teenagers = sqlContext. sql ( " SELECT name FROM people WHERE age >= 13 AND age <= 
19") 

15/04/04 08: 31: 39 INFO parse. ParseDriver: Parsing command; SELECT name FROM people WHERE 
age >=13 AND age <=19 

15/04/04 08: 31: 40 INFO parse. ParseDriver; Parse Completed 

teenagers : org. apache. spark. sql. DataFrame = [ name: string | 


scala » teenagers. show 


Justin 
注册 成 临时 表 之 后 ， 可 以 使 用 SQLContext 的 sql 方法 ， 执 行 SQL 语句 。 
十 四 、schema 
1. 定义 


def schema:StructType 
2. 功能 描述 
返回 DataFrame 的 Schema 信息 ， 对 应 类 型 为 StructType。 
3. 示例 
scala > df. schema 
res29 : org. apache. spark. sql. types. StructType = StructType ( StructField ( age, LongType, true ) , Struct- 


Field( deptId , LongType , true) , StructField ( gender, StringType , true) , StructField ( job number, String- 
Type true) , StructField( name, StringType , true) , StructField( salary , LongType , true) ) 


十 五 、toDF 

1. 定义 
def toDF( colNames ; String * ) ; DataFrame 
def toDF( ) : DataFrame 


2. 功能 描述 
不 带 参 数 的 toDF 返回 它 本 身 ， 带 字符 串 数组 的 参数 时 ， 返 回 新 的 DataFrame， 该 Dat- 
aFrame 重 命名 了 各 列 名 。 
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3. 示例 


scala > df. toDF( " age" ," deptId" ," gender" ," jobId" ," name" ," salary" ) 

res35 : org. apache. spark. sql. DataFrame = [ age: bigint , deptId : bigint , gender: string , jobId ; string, name: 
string, salary : bigint | 

scala > df. toDF( " age" ," deptId" ," gender" ," job number" ," name" ," salary" ) 

res33 : org. apache. spark. sql. DataFrame = [ age: bigint , deptId bigint , gender: string, job number: string, 
name ; string, salary : bigint | 

scala > df. toDF( " age" ," deptId" ," gender" ," job number" , " name" 

java. lang. Illegal ArgumentException : requirement failed ;The number of columns doesn t match. 

Old column names; age , deptld , gender ,job number, name, salary 

New column names :age , deptld , gender, job number , name 

at scala. Predef$. require( Predef. scala ;233) 

scala » df. toDF 

res36 : org. apache. spark. sql. DataFrame = [ age: bigint , deptId ; bigint , gender; string, job number: string, 


name: string, salary ; bigint | 
注意 : 在 调用 带 参 的 toDF 方法 时 ， 参 数 个 数 必须 和 调用 者 DataFrame 的 列 个 数 一 样 。 
十 六 、agg 
1. 定义 
def agg( expr: Column, exprs ; Column * ) ; DataFrame 
def agg( exprs : Map| String, String | ) : DataFrame 
def agg( exprs : Map| String String | ) : DataFrame 
def agg( aggExpr: (String, String) ,aggExprs : (String, String) * ) ; DataFrame 
2. 功能 描述 
agg 这 一 系列 的 方法 ， 为 DataFrame 提供 数据 列 不 需要 经 过 groups 就 可 以 执行 的 统计 


3. 示例 


scala > df. age(max($" age" ) , avg( $" salary" ) ) 

res37 :org. apache. spark. sql. DataFrame = [ MAX( age) :bigint, AVG( salary) : double | 
scala > df. agg( max ( $" age" ) , avg( $" salary" ) ) . show 

MAX( age) AVG( salary) 

33 4666. 666666666667 

scala > df. groupBy( ). agg( max( $" age" ) , avg( $" salary" ) ) 

res39 : org. apache. spark. sql. DataFrame = [ MAX( age) :bigint, AVG( salary) : double | 
scala > df. groupBy ( ). agg( max( $" age" ) ,avg( $" salary" ) ). show 

MAX( age) AVG( salary) 

33 4666. 666666666667 


可 以 看 到 ， 直 接 用 agg 方法 和 先 用 groupBy 分 组 再 调用 agg 方法 的 结果 是 一 样 的 。 这 里 
分 别 统计 了 age 的 最 大 值 和 salary 的 平均 值 。 
scala» df.agg( Map("age" —» "min" ," salary" —» "mean" ) ) 
res2] : org. apache. spark. sql. DataFrame = [ MIN( agest86L) : bigint, AVG(salary#91L) : double | 


"on 


scala» df agg( Map(" age" —» " min" ," salary" —» " mean" ) ). show 
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15/04/05 09 :34 :50 INFOmapred. FileInputFormat ; Total input paths to process :1 
MIN(age#86L) AVG(salary#91L) 


19 4666. 666666666667 
这 是 使 用 Map 作为 参数 的 示例 ， 分 别 统计 列 age 的 最 小 值 和 salary 的 平均 值 。 S 


scala» df. agg(("age" —» " min" ),( "salary" ->" mean" ) ) 

res24 : org. apache. spark. sql. DataFrame = [ MIN( agest86L) : bigint, AVG(salary#91L) : double | 
scala» df. agg( (" age" —» " min" ) , (" salary" —» " mean" ) ). show 

15/04/05 09 :35 :52 INFOmapred. FileInputFormat ; Total input paths to process :1 
MIN(age#86L) AVG(salary#91L) 

19 4666. 666666666667 


这 是 使 用 二 元 组 重复 参数 作为 参数 的 示例 ， 分 别 统 计 列 age 的 最 小 值 和 salary 的 平 
均值 。 
十 七 、apply 
1. 定义 
def apply ( colName : String) : Column 
def col( colName: String) ; Column 


2. 功能 描述 
这 两 个 方法 都 可 以 根据 指定 列 名 返回 DataFrame 的 列 ， 其 类 型 为 Column。 
3. 示例 


scala > df( " age" ) 
res4 : org. apache. spark. sql. Column = age 
scala > df. col( " age" ) 


resO : org. apache. spark. sql. Column = age 
TTA. as 
1. 定义 

def as( alias; Symbol) : DataFrame 

def as( alias ; String) ; DataFrame 


2. 功能 描述 

调用 as 方法 后 ,使 用 别名 构建 DataFrame。 

3. 解析 

为 了 分 析 这 个 方法 的 作用 ， 查 看 带 as 方法 和 不 带 的 两 种 情况 。 
首先 修改 调试 日 志 的 级 别 ， 方 便 查 看 调试 信息 : 


scala > Logger. getLogger( " org. apache. spark. sql" ). setLevel( Level. DEBUG) 
不 带 as 方法 时 的 调试 信息 : 


scala > val sss = sqlContext. sql( " select foo, bar from pokes" ). explain( true) 
15/04/07 01:13:05 WARN conf. HiveConf; DEPRECATED ; Configuration property hive. metastore. local 


no longer has any effect. Make sure to provide a valid value for hive. metastore. uris if you are connecting 
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to a remote metastore. 

15/04/07 01: 13:05 INFO parse. ParseDriver; Parsing command; select foo, bar from pokes 

15/04/07 01: 13: 05 INFO parse. ParseDriver: Parse Completed 

15/04/07 01: 13:05 INFO metastore. HiveMetaStore :0 : get. table:db = default tbl = pokes 

15/04/07 01: 13: 05 INFO HiveMetaStore. audit: ugi = harli ip = unknown - ip ~ addremd = get. table: db 
= default tbl = pokes 
15/04/07 01:13:05 INFO metastore. HiveMetaStore :0 : get. table:db = default tbl = pokes 

15/04/07 01: 13: 05 INFO HiveMetaStore. audit: ugi = harli ip = unknown — ip — addremd = get. table; db 
= default tbl = pokes 


== Parsed Logical Plan == 
' Project { foo', bar | 
' UnresolvedRelation [ pokes ] , None 
-- Analyzed Logical Plan == 
Project [ foo#79 , bar#80 | 
MetastoreRelation default, pokes , None 
== Optimized Logical Plan == 
MetastoreRelation default , pokes , None 
== Physical Plan == 
HiveTableScan | foo#79 , bar#80 | , ( MetastoreRelation default, pokes , None) , None 
Code Generation ; false 
==RDD == 
sss; Unit = ( ) 


带 as 方法 时 的 调试 信息 : 


scala > val sss = sqlContext. sql( " select foo, bar from pokes" ). as( "alise" ). explain( true) 

15/04/07 01:13:18 WARN conf. HiveConf; DEPRECATED ; Configuration property hive. metastore. local 
no longer has any effect. Make sure to provide a valid value for hive. metastore. uris if you are connecting 
lo a remote metastore. 

15/04/07 01: 13: 18 INFO parse. ParseDriver; Parsing command; select foo, bar from pokes 

15/04/07 01: 13: 18 INFO parse. ParseDriver; Parse Completed 

15/04/07 01: 13: 18 INFO metastore. HiveMetaStore :0 : get_table: db = default tbl = pokes 

15/04/07 01: 13: 18 INFO HiveMetaStore. audit; ugi = harli ip = unknown - ip ~ addremd = get. table; db 
= default tbl = pokes 
15/04/07 01: 13: 19 INFO metastore. HiveMetaStore :0 : get. table:db = default tbl = pokes 

15/04/07 01: 13: 19 INFO HiveMetaStore. audit: ugi = harli ip = unknown - ip — addremd = get. table; db 
= default tbl = pokes 
15/04/07 01: 13: 19 INFO metastore. HiveMetaStore :0 : get_table: db = default tbl = pokes 

15/04/07 01: 13: 19 INFO HiveMetaStore. audit: ugi = harli ip = unknown - ip ~ addremd = get. table: db 
= default tbl = pokes 


== Parsed Logical Plan == 
' Subquery alise 
' Project { foo', bar] 

' UnresolvedRelation [ pokes ] , None 
== Analyzed Logical Plan == 
Project [ foost86 , bar#87 | 
MetastoreRelation default , pokes , None 


== Optimized Logical Plan == 
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MetastoreRelation default ,pokes ,None 
== Physical Plan == 
HiveTableScan | foo#86 , bar#87 | ,( MetastoreRelation default ,pokes , None) , None 


Code Generation ; false 


==RDD == C» 
sss; Unit = ( ) 
调用 as 方法 后 ， 仅 在 解析 逻辑 计划 时 ， 解 析 的 第 一 步 使 用 了 别名 : Subquery alias (在 
Parsed Logical Plan Xb) 。 
+A, distinct 
1. 定义 


def distinct: DataFrame 
2. 功能 描述 
返回 对 DataFrame 的 Rows 去 重 后 的 DataFrame。 
3. 示例 


scala > val newPeople = sqlContext. jsonFile( " hdfs: //wxx214: 9000/user/harli/test/ newPeople. json" ) 
15/04/03 12: 18: 30 INFOmapred. FileInputFormat ; Total input paths to process :1 

newPeople : org. apache. spark. sql. DataFrame = [ age: bigint, deptId ; bigint, gender; string, job number: 
string , name ; string, salary ; bigint | 

scala » newPeople. show 

15/04/03 12: 19: 16 INFOmapred. FileInputFormat : Total input paths to process :1 


agedeptld gender job number name salary 


32 1 male 007 John 4000 
20 2 female 008 Herry 5000 
26 3 male 009 Jack 6000 


scala > val unionPeople = df. unionAll ( newPeople). select( " name" ). distinct. show 
15/04/04 09: 05: 04 INFOmapred. FileInputFormat ; Total input paths to process :1 
15/04/04 09: 05: 04 INFOmapred. FileInputFormat ; Total input paths to process :1 
name 

Justin 

Jack 

John 

Andy 

Michael 

Herry 

unionPeople ; Unit = ( ) 


示例 中 加 载 newPeople. json XF, g T newPeople (是 个 DataFrame) ， 通 过 unionAll 77 
法 合并 df 与 newPeople， 然 后 选择 有 重复 Rows 的 “name” 列 ， 最 后 调用 distinct 方法 进行 
去 重 。 

二 十 、except 

1. 定义 


def except( other; DataFrame) ; DataFrame 
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2. 功能 描述 

返回 DataFrame ， 包 含 当 前 Frame 的 Rows， 同 时 这 些 Rows 不 在 男 一 个 Frame 中 。 相 当 
于 两 个 DataFrame 做 减法 。 

3. 示例 


scala > df. except( nDf) 

res13 : org. apache. spark. sql. DataFrame = [ age: bigint , deptId ; bigint , gender: string, job number: string, 
name ; string, salary ; bigint | 

scala » df. except( nDf). show 

15/04/04 09: 08: 34 INFOmapred. FileInputFormat : Total input paths to process :1 

15/04/04 09: 08: 34 INFOmapred. FileInputFormat : Total input paths to process :1 


agedeptld gender job number name salary 

33 1 male 001 Michael 3000 
26 3 male 006 Jack 3000 
20 2 female 005 Herry 7000 
19 3 male 003 Justin 5000 
30 2 female 002 Andy 4000 
32 1 male 004 John 6000 


二 十 一 、explode 
1. 定义 


def explode[ A , B ] ( inputColumn ; String, outputColumn ; String) (f: (A) => TraversableOnce[ B ] ) ( im- 
plicit argO : scala. reflect. api. JavaUniverse. TypeTag| B] ) : DataFrame 

def explode[ A < ; Product ] (input: Column * ) (f; (Row) => TraversableOnce[ A ] ) (implicit argO : 
scala. reflect. api. JavaUniverse. TypeTag[ A | ) : DataFrame 


2. 功能 描述 
返回 一 个 新 的 DataFrame， 其 中 原来 的 每 一 列 都 被 指定 的 函数 扩展 成 零 行 或 多 行 。 
3. 示例 


scala > case class Book(title:String,words : String) 

defined class Book 

scala > val df = sc. textFile ( " /user/harli/test/book. txt" ) . map (_. split( " ," )). map( b => Book (b 
(0) ,b(1))). toDF 

df:org. apache. spark. sql. DataFrame = | title: string , words; string | 

scala > case class Word ( word : String) 

defined class Word 

scala > import org. apache. spark. sql. _ 

import org. apache. spark. sql. _ 

scala > val allWords = df. explode( words) | case Row( words : String) => words. split(" "). map( Word 
E 

allWords: org. apache. spark. sql. DataFrame = [ title : string , words ; string, word ; string | 

scala > allWords. map| row 2» "0 =" + row(0) + "; 1=" + row(1) + "3; 2=" + row(2)} 
. foreach ( println ) 

0 =book_3; 1 = word 3 word 4; 2 = word_3 

0 =book_3; 1 = word 3 word 4; 2 = word_4 

0 2 book 1; 1 2 word 1 word 2 word, 3; 2 = word 1 

0 2 book, 1; 1 2 word 1 word, 2 word, 3; 2 = word 2 
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0 2 book, 1; 1 2 word, 1 word 2 word, 3; 2 = word_3 

0 2 book, 2; 1 = word 2 word 3; 2 = word 2 

0 2 book, 2; 1 = word 2 word 3; 2 = word 3 

scala > val bookCountPerWord = allWords. groupBy ( " word" ). agg( countDistinct( " title" ) ). count 
bookCountPerW ord ; Long 2 4 S 
scala > val bookCountPerWord = allWords. groupBy ( " word" ). agg( countDistinct( " title" ) ). show 
COUNT( DISTINCT title) 

1 

2 

3 

1 

bookCountPerW ord ; Unit = ( ) 


—-F-. filter 
1. 定义 
def filter( conditionExpr:String) :DataFrame 


def filter( condition; Column ) ; DataFrame 


def where( condition; Column) : DataFrame 


2. 功能 描述 
按 参数 指定 的 SQL 表达 式 的 条 件 过 滤 DataFrame。 
3. 示例 


scala > df. filter( "age >20") 

res15 : org. apache. spark. sql. DataFrame = [ age: bigint , deptld ; bigint , gender: string, job number: string, 
name: string, salary ; bigint | 

scala > df. filter( "age » 20" ). show 

15/04/04 09: 22: 28 INFOmapred. FileInputFormat ; Total input paths to process ;1 


agedeptld gender job number name salary 
33 1 male 001 Michael 3000 
30 2 female 002 Andy 4000 
32 1 male 004 John 6000 
26 3 male 006 Jack 3000 
scala > df. where( $" age" >25 &&$" gender" ===" male" ). show 
15/04/03 17:01:31 INFOmapred. FileInputFormat ; Total input paths to process :1 
agedeptld gender job number name salary 
33 1 male 001 Michael 3000 
32 1 male 004 John 6000 
26 3 male 006 Jack 3000 
二 十 三 、groupBy 
1. 定义 


def groupByKey( ) : RDD[ (K, Iterable[ V]) ] 
2. 功能 描述 
使 用 一 个 或 多 个 指定 的 列 对 DataFrame 进行 分 组 ， 以 便 对 它们 执行 聚合 操作 。 
3. 示例 
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scala > df. groupBy( " gender" ). agg( 


| " age" —» "max" : 


| "salary" -> " mean" 


) 
res3 ; 2 apache. spark. sql. DataFrame = [ gender: string, MAX ( aget OL) : bigint, AVG (salary #5L) : 
double | 
示例 中 先 根 据 “gender” 列 对 df 进行 分 组 ， 分 组 后 再 求 “age” 的 最 大 值 和 “salary” 
列 的 平均 值 。 
二 十 四 、intersect 
1. 定义 


def intersect( other: DataFrame ) :DataFrame 
2. 功能 描述 
取 两 个 DataFrame 中 同时 存在 的 Rows， 返 回 DataFrame。 
3. 示例 


scala > valnewPeople = sqlContext. jsonFile( " hdfs: //wxx214: 9000/user/harli/test/newPeople. json" ) 
15/04/03 12: 18: 30 INFOmapred. FileInputFormat ; Total input paths to process :1 


newPeople : org. apache. spark. sql. DataFrame = [ age: bigint, deptld: bigint, gender: string, job number: 
string , name ; string, salary ; bigint | 

scala > df. select( " name" ). intersect( newPeople. select( $" name" ) ). show 

15/04/03 15: 20: 11 INFOmapred. FileInputFormat ; Totmal input paths to process :1 

15/04/03 15: 20: 11 INFOmapred. FileInputFormat : Total input paths to process :1 

name 

Jack 

John 


Herry 
二 十 五 、join 
1. 定义 
def join(right:DataFrame ,joinExprs :Column ,joinType:String) : DataFrame 


def join(right:DataFrame ,joinExprs:Column) : DataFrame 


def join(right:DataFrame ) :DataFrame 
2. 功能 描述 
对 两 个 DataFrame >K join 操作 。 不 带 参数 时 取 笛 卡 儿 积 ， 仅 带 join Exprs 时 默认 为 Inner 
Join， 第 三 个 join 参数 joinType 可 以 指定 具体 的 join 操作 。 
3. 示例 
1) 与 前 面 的 案例 一 样 ， 加 载 测试 文件 : 
scala > val people = sqlContext. jsonFile( " hdfs: //wxx214: 9000/user/harli/test/ people. json" ) 


15/04/03 11:03:01 INFOmapred. FileInputFormat ; Total input paths to process :1 


people : org. apache. spark. sql. DataFrame = [ age : bigint , deptld : bigint , gender: string, job number: string, 
name ; string, salary : bigint | 


scala » val dept = sqlContext. load( " hdfs: //wxx214: 9000/ user/ harli/test/ department. json" , " json" ) 
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15/04/03 11:03:01 INFOmapred. FileInputFormat : Total input paths to process :1 
dept: org. apache. spark. sql. DataFrame = [ deptld : bigint , name: string | 


2) 将 部 门 信息 和 人 员 信 息 做 外 联 操作 : 


scala > people. join( dept, people( " deptId" ) === dept("deptId" ) ," outer" ). show S 
15/04/03 15:25:55 INFOmapred. ; FileInputFormat ; Total input paths to process ; 1 
15/04/03 15: 25: 55 INFOmapred. FileInputFormat ; Total input paths to process :1 


agedeptld gender job number name salary deptId name 


33 1 male 001 Michael 3000 1 Development Dept 
32 1 male 004 John 6000 1 Development Dept 
20 2 female 005 Herry 7000 2 Personnel Dept 

30 2 female 002 Andy 4000 2 Personnel Dept 

19 3 male 003 Justin 5000 3 Testing Department 
26 3 male 006 Jack 3000 3 Testing Department 


二 十 六 、limit 
1. 定义 
def limit(n:Int) ; DataFrame 
2. 功能 描述 
返回 DataFrame 的 前 n 个 Rows。 
3. 示例 


scala > df. limit(3) 

res27 :org. apache. spark. sql. DataFrame = [ age: bigint , deptId ; bigint , gender: string, job number: string, 
name ; string, salary ; bigint ] 

scala » df. limit(3). show 

15/04/05 10: 33: 40 INFOmapred. FileInputFormat : Total input paths to process :1 


agedeptld gender job number name salary 

33 1 male 001 Michael 3000 
30 2 female 002 Andy 4000 
19 3 male 003 Justin 5000 


二 十 七 、orderBy 和 sort 
1. 定义 
def orderBy ( sortExprs:Column * ) ; DataFrame 
def orderBy( sortCol ; String, sortCols ; String * ) ; DataFrame 


def sort( sortExprs : Column * ) ; DataFrame 
def sort( sortCol : String, sortCols ;String * ) ; DataFrame 


2. 功能 描述 
按 指定 的 一 列 或 多 列 进行 排序 ， 分 别 支 持 字 符 串 或 Column 的 参数 列表 。 
3. 示例 

scala > df. sort("job number" ). show(3) 


15/04/03 11:13:35 INFOmapred. FileInputFormat : Total input paths to process :1 


agedeptld gender job number name salary 
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33 1 male 001 Michael 3000 
30 2 female 002 Andy 4000 
19 3 male 003 Justin 5000 


scala » df. sort( $" job number". asc). show 
15/04/03 11:13:57 INFOmapred. FileInputFormat : Total input paths to process :1 


agedeptld gender job number name salary 

33 1 male 001 Michael 3000 
30 2 female 002 Andy 4000 
19 3 male 003 Justin 5000 
32 1 male 004 John 6000 
20 2 female 005 Herry 7000 
26 3 male 006 Jack 3000 


scala > df. orderBy ( " age" ," salary" ) 
res29 : org. apache. spark. sql. DataFrame = [ age: bigint , deptId ; bigint , gender: string, job number: string, 
name ; string, salary ; bigint | 

" " 


scala > df. orderBy ( " age" ," salary" ). show 
15/04/05 10: 36: 38 INFOmapred. FileInputFormat ; Total input paths to process :1 


agedeptld gender job number name salary 

19 3 male 003 Justin 5000 
20 2 female 005 Herry 7000 
26 3 male 006 Jack 3000 
30 2 female 002 Andy 4000 
32 1 male 004 John 6000 
33 1 male 001 Michael 3000 


scala > df. orderBy ( col( " age" ) , df( " salary" ) ). show 
15/04/05 10: 36: 53 INFOmapred. FileInputFormat ; Total input paths to process :1 


agedeptld gender job number name salary 

19 3 male 003 Justin 5000 
20 2 female 005 Herry 7000 
26 3 male 006 Jack 3000 
30 2 female 002 Andy 4000 
32 1 male 004 John 6000 
33 1 male 001 Michael 3000 


—-FAX. sample 
1. 定义 


def sample( withReplacement ; Boolean fraction :Double) : DataFrame 


def sample( withReplacement ; Boolean, fraction; Double , seed: Long) : DataFrame 


2. 功能 描述 

按 指定 因子 对 DataFrame 的 Rows 进行 取样 ， 如 果 指 定 withReplacement 为 true 时 ,使 用 
指定 的 种 子 或 随机 的 种 子 进行 替换 。 

3. 示例 


scala > df. sample( false,0. 5) 
res32 : org. apache. spark. sql. DataFrame = [ age: bigint , deptId ; bigint , gender; string, job number: string, 


name ; string, salary ; bigint ] 
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scala > df. sample(false ,0. 5). show 
15/04/05 10: 41: 32 INFOmapred. FileInputFormat ; Total input paths to process :1 


agedeptld gender job number name salary 


30 2 female 002 Andy 4000 
32 1 male 004 John 6000 S 
26 3 male 006 Jack 3000 


scala > df. sample( false ,0. 5,1). show 
15/04/05 10: 41: 40 INFOmapred. FileInputFormat ; Total input paths to process :1 


agedeptld gender job number name salary 


30 2 female 002 Andy 4000 
32 1 male 004 John 6000 
26 3 male 006 Jack 3000 


scala > df. sample( true ,0. 5,1). show 
15/04/05 10:41:49 INFOmapred. FileInputFormat ; Total input paths to process ; 1 


agedeptld gender job number name salary 

33 1 male 001 Michael3000 
19 3 male 003 Justin 5000 
32 1 male 004 John 6000 


当 withReplacement 为 false 时 ， 指 定 的 种 子 无 效 ， 为 true 时 ， 会 根据 指定 的 种 子 ， 对 应 
Rows 的 序号 进行 蔡 换 。 

二 十 九 、Select 系列 

1. 定义 


def select( col : String ,cols: String * ) :DataFrame 
def select( cols: Column * ) : DataFrame 


def selectExpr( exprs: String * ) : DataFrame 


2. 功能 描述 

从 DataFrame 选取 指定 的 列 ， 返 回 DataFrame。 指 定 列 有 三 种 方式 ， 可 以 用 列 名 字符 串 
的 重复 参数 ， 或 Column 重复 参数 及 列 名 表达 式 的 多 个 参数 来 指定 。 

3. 示例 


scala > df. select( " age" ," name" ). show 


15/04/05 10: 46: 55 INFOmapred. FileInputFormat ; Total input paths to process :1 
age name 

33 Michael 

30 Andy 

19 Justin 

32 John 

20 Herry 

26 Jack 

scala > df. select( $" age" , $" name" ). show 

15/04/05 10: 47: 05 INFOmapred. FileInputFormat : Total input paths to process :1 
age name 

33 Michael 

30 Andy 

19 Justin 
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32 John 

20 Herry 

26 Jack 

scala > df. select( col( " age" ) , df( " name" ) ). show 

15/04/05 10: 47: 20 INFOmapred. FileInputFormat ; Total input paths to process :1 
age name 

33 Michael 

30 Andy 

19 Justin 

32 John 

20 Herry 

26 Jack 

scala > df. selectExpr(" age + 1" ," name as newName" ," abs( salary) " ). show 
15/04/05 10: 49: 27 INFOmapred. FileInputFormat ; Total input paths to process :1 
(age + 1)newName Abs(salary) 


34 Michael 3000 
31 Andy 4000 
20 Justin 5000 
33 John 6000 
21 Herry 7000 
27 Jack 3000 


三 十 、unionAll 
1. 定义 
def unionAll( other; DataFrame ) : DataFrame 
2. 功能 描述 
联合 调用 者 和 参数 这 两 个 DataFrame 的 Rows。 
3. 示例 


// 用 sqlContext. jsonFile 方法 加 载 文 件 构 建 newPeople 

scala > val newPeople = sqlContext. jsonFile( " hdfs://wxx214 :9000/user/harli/test/newPeople. json" ) 
15/04/03 12: 18: 30 INFOmapred. FileInputFormat : Total input paths to process ;1 

newPeople : org. apache. spark. sql. DataFrame = [ age: bigint, deptId ; bigint, gender: string, job number: 
string , name ; string, salary : bigint | 

// 联 合 df 和 newPeople 

scala > df. unionAll( newPeople). show 

15/04/03 12: 18: 32 INFOmapred. FileInputFormat ; Total input paths to process :1 

15/04/03 12: 18: 32 INFOmapred. FileInputFormat ; Total input paths to process :1 


agedeptld gender job number name salary 

33 1 male 001 Michael 3000 
30 2 female 002 Andy 4000 
19 3 male 003 Justin 5000 
32 1 male 004 John 6000 
20 2 female 005 Herry 7000 
26 3 male 006 Jack 3000 
32 1 male 007 John 4000 
20 2 female 008 Herry 5000 
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26 3 male 009 Jack 6000 


三 十 一 、withColumn 和 withColumnRenamed 

1. 定义 
def withColumn( colName : String , col : Column ) :DataFrame e 
def withColumnRenamed( existingName ; String ,newName:; String) ; DataFrame 

2. 功能 描述 

对 DataFrame 列 进行 操作 ，withColumn 增加 DataFrame 的 列 信 息 ，withColumnRenamed 则 

是 对 DataFrame 的 列 进行 重 命名 。 

3. 示例 

scala > df. withColumn( " level" ,people( "age" ) / 10). show 


15/04/03 12:16: 19 INFOmapred. FileInputFormat ; Total i; 


nput paths to process; | 


agedeptld gender job number name salary level 

33 1 male 001 Michael 3000 3.3 
30 2 female 002 Andy 4000 3.0 
19 3 male 003 Justin 5000 1.9 
32 1 male 004 John 6000 3:2 
20 2 female 005 Herry 7000 2.0 
26 3 male 006 Jack 3000 2.6 


scala > val rnDept = df. withColumnRenamed( " job numbe" ," jobId" ) 
rnDept: org. apache. spark. sql. DataFrame = [ age : bigint , deptld : bigint , gender: string, job number: string, 


name ; string, salary ; bigint | 


Z+, insertInto, insertIntoJDBC 和 createJDBCTable 
1. 定义 

def insertInto( tableName:String) ; Unit 

def insertInto( tableName ; String , overwrite ; Boolean) ; Unit 


def insertIntoJDBC ( url : String , table : String , overwrite : Boolean) ; Unit 
def createJDBCTable( url ; String, table : String , allowExisting : Boolean) ; Unit 


2. 功能 描述 

insert 系列 的 方法 : 向 指定 表 中 增加 DataFrame 的 Rows 数据 。 带 参数 overwrite A.A true 
时 , insert into 会 导致 覆 写 原 表 的 数据 ( 即 插入 前 先 truncate 表 ) o 参数 url 用 来 指定 数据 库 
信息 。 

createJDBCTable 用 于 创建 外 部 数据 库 的 表 ， 参 数 包含 数据 库 连 接 的 url 信息 ， 表 名 ta- 
ble， 以 及 allowExisting 表示 是 否 人 允许 表 已 存在 。 如 果 allowExisting 为 true, TE create KZ 
前 先 delete 表 。 

3. 示例 


scala > val df = sqlContext. sql ( " select 1,3" ). toDF(" first" ," second" ) 
15/04/07 00: 31:37 WARN conf. HiveConf; DEPRECATED ; Configuration property hive. metastore. local 


no longer has any effect. Make sure to provide a valid value for hive. metastore. uris if you are connecting 
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to a remote metastore. 
15/04/07 00: 31: 37 INFO parse. ParseDriver; Parsing command; select 1,3 
15/04/07 00: 31: 37 INFO parse. ParseDriver; Parse Completed 


df:org. apache. spark. sql. DataFrame = [ first: int, second ; int | 


scala > df. registerTempTable( " test" ) 
scala > val dbtable = "TEST. JDBC" 
dbtable:String = TEST JDBC 
scala > df. createJDBCTable ( " jdbc; mysql ://192. 168. 242. 131: 3306/hive? user = root&password = 
mysql" , dbtable ,true) 
scala > val idf = sqlContext. sql( " select 2,4" ). toDF(" first" ," second" ) 
15/04/07 00: 31:39 WARN conf. HiveConf; DEPRECATED ; Configuration property hive. metastore. local 
no longer has any effect. Make sure to provide a valid value for hive. metastore. uris if you are connecting 
lo a remote metastore. 
15/04/07 00: 31: 39 INFO parse. ParseDriver; Parsing command; select 2 ,4 
15/04/07 00: 31: 39 INFO parse. ParseDriver; Parse Completed 
idf ;org. apache. spark. sql. DataFrame = [ first: int , second ; int ] 
scala > idf. insertIntoJDBC ( " jdbc: mysql: //192. 168. 242. 131: 3306/hive? user = root&password = 
mysql" , dbtable ,false) 
scala > val jdbcDF = sqlContext. load( " jdbc" , Map( 
| "url" -> "jdbc: mysql: //192. 168. 242. 131: 3306/hive? user = root&password = mysql" , 
| | "dbtable" -> dbtable) ) 
jdbcDF : org. apache. spark. sql. DataFrame = [ first: int , second : int | 
scala » jdbcDF. show 
first second 
1 3 
2 4 


示例 中 首先 构建 了 两 个 DataFrame， 用 其 中 一 个 调用 createJDBCTable 方法 构建 了 一 个 
表 :“TEST_JDBC”， 这 里 createJDBCTable 的 第 三 个 参数 设置 为 tue， 当 表 存 在 时 会 先 drop 
表 ， 然 后 再 create 表 。 

创建 表 之 后 ， 使 用 insertIntoJDBC 方法 ,将 第 二 个 DataFrame 插入 到 刚 创建 的 表 
“TEST_JDBC” 中 ， 其 中 ，insertIntoJDBC 的 第 三 个 参数 选择 了 false， 因 此 不 会 覆盖 原 有 的 

三 十 三 、save 

1. 定义 


def save( source:String, mode ; SaveMode ,options :Mapl String, String | ) ; Unit 
def save( path ; String , source : String , mode ; SaveMode) ; Unit 

def save( path : String, source ; String) : Unit 

def save( path ; String ,mode:SaveMode ) ; Unit 

def save( path: String) ; Unit 


2. 功能 描述 

将 DataFrame 的 数据 保存 到 指定 路 径 下 ， 其 中 path 为 数据 存储 路 径 ，source 为 数据 源 标 
YA, mode 为 保存 模型 ， 各 个 模型 的 具体 信息 可 以 参见 章节 3.3.1 通用 的 加 载 /保存 功能 的 案 
例 与 解析 部 分 的 保存 模型 的 内 容 。 
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3. 示例 


scala > case class Book(title:String,words :String ) 

defined class Book 

scala > val df = sc. textFile ( " /user/harli/test/book. txt" ) . map (_. split( " ," )). map( b => Book (b © 
(0),b(1))). toDF 

df: org. apache. spark. sql. DataFrame = [ title: string, words ; string | 

scala > case class Word ( word : String) 

defined class Word 

scala > import org. apache. spark. sql. _ 

import org. apache. spark. sql. _ 

scala > val allWords = df. explode( words) | case Row( words: String) => words. split(" "). map( Word 
(_)) } 

allWords:org. apache. spark. sql. DataFrame = | title: string , words :string,word:string | 

scala > allWords. save( " /user/harli/allword. json" ," json" ) 

15/04/07 12: 21: 59 INFO output. FileOutputCommitter; Saved output of task attempt, 201504071221 _ 
0018 _ m _ 000000 _ 620 to hdfs ://wxx214 : 9000/user/harli/allword. json/_ temporary/0/task _ 
201504071221. 0018. m. 000000 

15/04/07 12: 21: 59 INFO output. FileOutputCommitter: Saved output of task attempt. 201504071221 _ 
0018 _ m _ 000001 621 to hdfs ://wxx214 : 9000/user/harli/allword. json/_ temporary/0/task _ 
201504071221. 0018. m 000001 


通过 hdfs 命令 查看 /user/harli/allword. json: 


[ harli@ wxx215 hadoop -2. 6. 0 ] $. /bin/hdfs dfs — ls /user/harli/allword. json 
15/04/07 12:22:27 WARN util. NativeCodeLoader: Unable to load native — hadoop library for your plat- 
form... using builtin — java classes where applicable 


Found 3 items 


-rw-r--r-- harli supergroup 0 2015 — 04 - 07 12: 22 /user/harli/allword. json/ 
. SUCCESS 

-rw-r--r-- harli supergroup 316 2015 -04 -07 12:22 /user/harli/allword. json/part 

— 00000 

-rw-r--r-- harli supergroup 118 2015 -04 -07 12: 22 /user/harli/allword. json/part 

— 00001 


三 十 四 、saveAsParquetFile 
1. 定义 
def saveAsParquetFile( path:String) :Unit 


2. 功能 描述 
将 DataFrame 保存 到 数据 源 为 “parquet” 的 指定 路 径 下 。 
3. 示例 


scala > case class Book( title : String , words : String) 

defined class Book 

scala > val df = sc. textFile ( " /user/harli/tes/book. txt" ) . map (. . split( " ," )). map( b => Book (b 
(0) ,b(1))). toDF 

df: org. apache. spark. sql. DataFrame = [ title: string, words ; string | 


scala > case class Word ( word ; String) 
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defined class Word 


scala > import org. apache. spark. sql. _ 


import org. apache. spark. sql. _ 

scala > val allWords = df. explode( words) | case Row( words: String) => words. split(" "). map( Word 
(_)) | 

allWords: org. apache. spark. sql. DataFrame = [ title : string , words ; string , word ; string | 


"on 


scala > allWords. save( " /user/harli/allword. parquet" , " parquet" ) 


通过 hdfs 命令 查看 路 径 “/user/harli/allword. parquet" : 


[ harli@ wxx215 hadoop - 2. 6. 0 ] $. /bin/hdfs dfs — ls /user/harli/allword. parquet 
15/04/07 12:28: 06 WARN util. NativeCodeLoader: Unable to load native — hadoop library for your plat- 
form... using builtin — java classes where applicable 


Found 5 items 


-rw-r--r-- harli supergroup 0 2015 -04 -07 12: 26 /user/harli/allword. parquet/ 
_SUCCESS 

-rw-r--r-- harli supergroup 365 2015 -04 -07 12: 26 /user/harli/allword. parquet/_ 
common_metadata 

-rw-r--r-- harli supergroup 865 2015 -04 -07 12: 26 /user/harli/allword. parquet/_ 
metadata 

-rw-r--r-- harli supergroup 922 2015 -04 — 07 12: 26 /user/harli/allword. parquet/ 
part — r — 00001. parquet 

-rw-r--r-- harli supergroup 852 2015 -04 -07 12: 26 /user/harli/allword. parquet/ 


part — r — 00002. parquet 


三 十 五 、saveAsTable 

1. 定义 
def saveAsTable( tableName : String , source: String , mode :SaveMode , options ; Map[ String, String ] ) : Unit 
def saveAsTable( tableName : String , source ; String , mode ; SaveMode , options ; Map[ String, String | ) :Unit 
def saveAsTable( tableName ;String , source ; String , mode : SaveMode) ; Unit 
def saveAsTable( tableName : String , source ; String) ; Unit 
def saveAsTable( tableName : String , mode ; SaveMode) :Unit 
def saveAsTable( tableName ;String) ; Unit 


2. 功能 描述 
将 DataFrame 保存 到 表 中 ， 参 数 和 save 方法 一 样 。 
3. 示例 


scala > case class Book( title : String , words : String) 

defined class Book 

scala > val df = sc. textFile ( " /user/harli/test/book. txt" ) . map (_. split( " ," )). map( b => Book (b 
(0) ,b(1))). toDF 

df; org. apache. spark. sql. DataFrame = | title: string , words; string | 

scala > df. saveAsTable( " table" ," json" ) 

15/04/07 12:32:02 INFOmetastore. HiveMetaStore :0 : get. database ; default 

15/04/07 12:32: 02 INFOHiveMetaStore. audit: ugi = harli ip = unknown - ip — addremd = get, data- 
base: default 

15/04/07 12: 32: 02 INFOmetastore. HiveMetaStore :0 : get, table:db = default tbl = table 

15/04/07 12: 32: 02 INFOHiveMetaStore. audit:ugi = harli ip = unknown - ip — addremd = get. table; db 
= default tbl = table 
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15/04/07 12:32:02 INFOmapred. FileInputFormat : Total input paths to process :1 

15/04/07 12: 32: 02 INFO output. FileOutputCommitter; Saved output of task attempt. 201504071232 _ 
0020. m. 000001 _ 623 to hdfs://wxx214 : 9000/user/hive/warehouse/table/ | temporary/0/task _ 
201504071232 0020. m 000001 

15/04/07 12: 32: 02 INFO output. FileOutputCommitter; Saved output of task attempt. 201504071232 _ © 
0020. m. 000000 _ 624 to hdfs://wxx214 : 9000/user/hive/warehouse/table/ | temporary/0/task _ 
201504071232 0020 m 000000 

15/04/07 12: 32: 03 INFOmetastore. HiveMetaStore :0 : create, table; Table( tableName ; table , dbName ; de- 
fault , owner; harli , createTime ; 1428381123 , lastAccessTime ; 0, retention: 0, sd: StorageDescriptor (cols: 
[ FieldSchema( name; col, type; array < string > , comment; from deserializer ) | , location; null, inputFor- 
mat; org. apache. hadoop. mapred. SequenceFileInputFormat , outputFormat ; org. apache. hadoop. 

hive. ql. io. HiveSequenceFileOutputFormat , compressed; false, numBuckets; — 1, serdeInfo; SerDelnfo 
(name; null, serializationLib: org. apache. hadoop. hive. serde2. MetadataTypedColumnsetSerDe , parame- 
ters: | serialization. format = 1, path = hdfs;//wxx214 ; 9000/user/hive/warehouse/ table | ) , bucketCols ; 
[ | ,sortCols:[ ] , parameters: | | , skewedInfo : SkewedInfo ( skewedColNames: [ ] , skewedColValues: [ ], 
skewedColValueLocationMaps: | | ) ) , partitionKeys: [ |, parameters: | spark. sql. sources. schema. part. 0 
= |" type" :" struct" ," fields" : [ | " name" ;" title" ," type" ;" string" ," nullable" ; true," metadata" : 
type metadata"; | |} |} , EXTERNAL = 
FALSE, spark. sql. sources. schema. numParts = 1 , spark. sql. sources. provider = json} , viewOriginalText ; 
null , viewExpandedText ; null , tableType ; MANAGED. TABLE) 

15/04/07 12: 32: 03 INFOHiveMetaStore. audit; ugi = harli ip = unknown - ip — addremd = create, ta- 
ble : Table ( tableName : table , dbName : default , owner; harli , createTime ; 1428381123 , lastAccessTime :0， 
retention :0 ,sd: StorageDescriptor ( cols; [ FieldSchema ( name: col, type: array < string > , comment; from 


string" ," nullable" : true," 


t+}, |" name words 


deserializer) ] , location; null , inputFormat ; org. apache. hadoop. mapred. SequenceFileInputFormat , output- 
Format; org. apache. hadoop. hive. ql. io. HiveSequenceFileOutputFormat , compressed ; false , numBuckets : 
- 1 ,serdeInfo ; SerDeInfo ( name : null , serializationLib : org. apache. hadoop. hive. serde2. MetadataTyped- 

ColumnsetSerDe , parameters; | serialization. format = 1, path = hdfs: //wxx214 : 9000/user/hive/ware- 
house/table| ) ,bucketCols:[ ] ,sortCols; [ ] , parameters; | | , skewedInfo ; SkewedInfo ( skewedColNames : 


[ ], skewedColValues; [ ], skewedColValueLocationMaps: | |)), partitionKeys: [ ], parameters: 
| spark. sql. sources. schema. part. O = | " type" :" struct" ," fields"; [ | " name" ;" title" ," type" ;" 
string" ," nullable" : true," metadata"; | | | , | " name" ;" words" ," type" :" string" ," nullable" ; true," 


metadata": | }}]}, EXTERNAL = FALSE, spark. sql. sources. schema. numParts = 1, 
spark. sql. sources. provider = json} , viewOriginalText; null, viewExpandedText: null, tableType; MAN- 
AGED_TABLE) 

15/04/07 12:32:03 INFO hive. log; Updating table stats fast for table 

15/04/07 12:32:03 INFO hive. log; Updated size of table table to 136 

15/04/07 12:32:03 INFOmetastore. HiveMetaStore :0 : get, table:db = default tbl = table 

15/04/07 12: 32: 03 INFOHiveMetaStore. audit; ugi = harli ip = unknown — ip — addremd = get. table ; db 
= default tbl = table 

scala > sqlContext. table( " table" ) 

15/04/07 12: 32: 14 INFOmetastore. HiveMetaStore :0 : get, table:db = default tbl = table 

15/04/07 12: 32: 14 INFOHiveMetaStore. audit:ugi = harli ip = unknown — ip — addremd = get. table ; db 
= default tbl = table 


res11 : org. apache. spark. sql. DataFrame = | title : string , words ; string | 


三 十 六 、flatMap 
1. 定义 


def flatMap[ R ] (f: (Row) => TraversableOnce[ R ] ) (implicit arg0 :ClassTag[ R] ) :RDD[R] 
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2. 功能 描述 
对 DataFrame 中 Rows 进行 处 理 ， 并 且 将 处 理 结果 。 
3. 示例 


scala > sdf. flatMap( x => List(x(0) ,x(1) ) ) 

res14 : org. apache. spark. rdd. RDD[ Any | = MapPartitionsRDD[ 20] at flatMap at DataFrame. scala 783 
scala > sdf. flatMap( x => List(x(0) ,x(1) ) ). collect 

res16 ; Array| Any | = Array(1,2) 


示例 中 将 Row 转换 为 由 每 一 列 组 成 的 List。 
三 十 七 、foreach 
1. 定义 
def foreach( f: ( Row) => Unit) :Unit 
def foreachPartition( f; ( Iterator[ Row] ) => Unit) ; Unit 


2. 功能 描述 

foreach 方法 上 对 DataFrame 中 的 Rows 进行 处 理 。foreachPartition 方法 则 是 对 应 分 区 中 的 
Rows 进行 处 理 ， 即 Iterator [Row], ， 使 用 方法 类 似 。 

3. 示例 


scala > val sdf = sqlContext. sql( "select 1,2 ") 

15/04/06 09:00: 21 WARN conf. HiveConf; DEPRECATED ; Configuration property hive. metastore. local 
no longer has any effect. Make sure to provide a valid value for hive. metastore. uris if you are connecting 
to a remote metastore. 

15/04/06 09: 00: 21 INFO parse. ParseDriver; Parsing command: select 1,2 

15/04/06 09: 00: 21 INFO parse. ParseDriver; Parse Completed 

sdf:org. apache. spark. sql. DataFrame = [. c0 int, cl:int] 

scala > sdf. foreach( x => println(" First Z" + x(0) + ";Secondz" + x(1))) 


由 于 这 是 分 布 式 计算 ， 因 此 需要 到 Executor 所 在 节点 查看 输出 信息 ， 查 看 Web Interface 
界面 (http: //master: 8080) ， 获 取 输 出 信息 ， 依 次 跳 转 界 面 ， 如 图 3.8 所 示 。 


& | @ cluster01:8080 v €| BY Google a 也 


Spa iso Spark Master at spark://cluster01:7077 


URL: spark://cluster01:7077 

REST URL: spark://cluster01:6066 (cluster mode) 
Workers: 1 

Cores: 4 Total, 4 Used 

Memory: 6.0 GB Total, 512.0 MB Used 
Applications: 1 Running, 0 Completed 
Drivers: 0 Running, 0 Completed 


Status: ALIVE 

Workers 

Worker Id Address State Cores Memory 
worker-20150828080350-cluster01-44917 cluster01:44917 ALIVE 4 (4 Used) 6.0 GB (512.0 MB Used) 


Running Applications 


Application ID Name Cores Memory per Node Submitted Time User State Duration 


app-20150828080607-0000 Spark shell 4 512.0 MB 2015/08/28 08:06:07 harli RUNNING 3.9 min 


图 3.8 Spark 监控 界面 上 的 Application 信息 
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监控 界面 上 的 特定 Executor 的 日 志 信息 如 图 3.9 所 示 。 


Qo |@ cluster01:8080/app/?appld=app-20150828080607-0000 ~ @| 图 v Google Qj & « 


Spa 13% Application: Spark shell 


ID: app-20150828080607-0000 
Name: Spark shell 

User: harli 

Cores: Unlimited (4 granted) 

Executor Memory: 512.0 MB 

Submit Date: Fri Aug 28 08:06:07 PDT 2015 


State: RUNNING 
Application Detail UI A y 
标准 输出 标准 错误 
Executor Summary PR EH 
ExecutoriD Worker Cores Memory State Logs 
0 worker-20150828080350-cluster01-44917 4 512 LOADING stdout stderr 
A] 3.9 Spark 监控 界面 上 特定 Executor 的 日 志 信 息 
Pa 
单 击 Logs 下 的 stdout， 可 以 查看 到 输出 信息 ， 如 图 3. 10 所 示 。 
[E Spark shett -Storage X je stdout log page for app-201... X I + | 
$° 图 cluster01. 8081/logPage/?appld=app-20150406105038-0000&executorid=0&logType=stdout m = «e B- Google E a g a 
Spať ,,, stdout log page for app-20150406105038-0000/0 
Back to Master 
Previous 0B Bytes 0 - 36 of 36 Next 0B 


Firste1; Seconds2 
Firstei; Seconde2 


图 3. 10 Spark 监控 界面 上 特定 Executor 的 stdout 日 志 信 息 


由 于 当前 执行 了 两 次 ， 因 此 stdout 上 有 两 行 输出 信息 。 
注意 : 这 是 在 另 一 个 集群 中 运行 ，cluster01 是 运行 Spark 的 Master 进程 的 节点 。 
三 十 八 、map 和 mapPartitions 
1. 定义 
def map[ R] (f; (Row) => R) (implicit arg0 ; ClassTaog[ R] ) :RDD[ R] 
def mapPartitions[ R ] (f: ( Iterator[ Row] ) => Iterator[ R ] ) (implicit arg0: ClassTag[ R] ) : RDD[R ] 


2. 功能 描述 

map 方法 将 DataFrame 的 Row 按 指定 的 函数 参数 映射 成 R 实例 ， 并 返回 以 R 为 元 素 类 型 
的 RDD 实例 。 

mapPartitions 方法 和 map 类 似 ， 只 是 函数 参数 作用 在 Iterator [Row] 。 

3. 示例 


scala > val sdf = sqlContext. sql(" select 1,2 " ) 

15/04/06 09: 00:21 WARN conf. HiveConf; DEPRECATED :Configuration property hive. metastore. local 
no longer has any effect. Make sure to provide a valid value for hive. metastore. uris if you are connecting 
to a remote metastore. 

15/04/06 09: 00: 21 INFO parse. ParseDriver; Parsing command: select 1,2 

15/04/06 09: 00: 21 INFO parse. ParseDriver; Parse Completed 

sdf:org. apache. spark. sql. DataFrame = [ _cO:int,_cl ; int] 

scala > sdf. map(x =>" First=" + x(0) + "; Second=" + x(1)) 
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res9 :org. apache. spark. rdd. RDD[ String] = MapPartitionsRDD[ 56 ] at map at DataFrame. scala:776 
scala>sdf map(x 2» "First 2" + x(0) + "; Second=" + x(1)). collect( ). foreach( println) 
First 215; Second =2 


4. 应 用 场景 

这 里 重点 分 析 mapPartitions 的 应 用 场景 ， 该 API 对 大 数据 量 进行 处 理 时 ， 如 果 应 用 得 
当 ， 可 以 极 大 提高 计算 性 能 ， 通 过 查看 源码 ， 可 以 看 到 许多 性 能 优化 都 是 通过 直接 调用 该 方 
法 来 实现 的 。 

具体 的 应 用 场景 ， 比 如 求 TopN 型 的 场景 ， 如 果 基 于 大 数据 量 进行 排序 然后 取 topN， 这 
在 性 能 上 是 不 可 接受 的 ， 参 看 源码 中 使 用 了 mapPartitions 方法 的 takeOrdered 方法 : 


def takeOrdered ( num ; Int) (implicit ord ; Ordering| T] ) : Array[ T] = | 


if (num 220) | 
Array. empty 
| else | 


// Fl mapPartitions 方法 直接 对 mapRDDs 的 各 个 分 区 进行 排序 
val mapRDDs = mapPartitions | items => 
// Priority keeps the largest elements ,so let s reverse the ordering. 
val queue = new BoundedPriorityQueue[ T | (num) (ord. reverse) 
queue ++= util. collection. Utils. takeOrdered( items , num) ( ord) 
Iterator. single( queue ) 
} 
if (mapRDDs. partitions. size ==0) | 
Array. empty 
| else | 
mapRDDs. reduce | (queuel ,queue2) => 
queuel ++= queue2 
queuel 
|. toArray. sorted( ord) 
} 


1 
j 


| 


可 以 看 到 ， 该 方法 将 大 数据 量 的 聚合 转变 成 了 分 区 小 数据 量 的 聚合 操作 ， 这 里 的 聚合 是 
分 区 的 topN 操作 ， 原 理 上 ， 和 aggregate 型 的 API 是 一 样 的 ， 只 是 在 对 分 区 聚合 结果 上 的 处 
理 有 点 差异 ，aggregate 型 的 API 是 对 分 区 的 聚合 结果 再 次 进行 二 次 聚合 ， 然 后 封装 成 RDD 
类 型 返回 ， 而 takeOrdered 方法 ， 只 需要 对 分 区 的 聚合 结果 进行 二 次 聚合 ， 也 就 是 上 面 源码 
中 的 mapRDDs. reduce | (queuel ,queue2 )… 部 分 ， 二 次 聚合 后 直接 把 得 到 的 新 的 topN 数组 
返回 即 可 ， 不 需要 再 封装 成 RDD。 

从 上 面 的 分 析 可 以 看 到 ， 对 分 布 式 的 计算 ， 基 本 原则 就 是 化 整 为 零 ， 然 后 根据 具体 应 用 
场景 ， 对 细节 进行 优化 。 因 此 ， 当 需要 实现 类 似 于 TopN 的 场景 时 ， 可 以 借鉴 takeOrdered 方 
法 ， 但 后 面 的 具体 细节 处 理 ， 可 以 根据 应 用 场景 进行 优化 。 

需要 注意 的 是 ，takeOrdered 方法 在 分 区 聚合 结果 的 处 理 上 ， 是 基于 的 值 比较 小 的 情 
况 下 ， 如 果 分 区 数 为 k 的 话 ， 那 么 mapRDDs. reduce | (queuel ,queue2) --: | 这 一 步 得 到 的 数 
据 集 的 大 小 就 是 K*N (在 每 个 分 区 都 有 N 个 的 情况 下 ) ， 如 果 Kx*N 数据 量 太 大 ， 超 出 内 
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存 装 载 能 力 ， 那 就 可 能 出 现 OMM 的 问题 了 。 解 决 方法 还 是 一 样 的 ， 就 是 根据 前 面 讲 的 ， 根 
据 具 体 场 景 的 实际 情况 ， 在 细节 的 处 理 上 进行 优化 。 比 如 : 

1) 先 用 aggregate 型 的 API 方法 进行 初步 聚合 ， 然 后 在 得 到 的 结果 RDD E, ESK, 合 
并 各 个 分 区 的 TopN 值 ， 这样 K 就 减少 成 了 M， 最 终 Driver Program 端 再 进行 sort 时， 数据 集 (S) 
就 可 以 从 Kx*N 变 成 了 Mr*N， 可 以 有 效 避 免 内 存 不 足 (Out of Memory) 的 问题 。 其 中 减少 
分 区 的 方法 可 以 使 用 coalesce 方法 进行 重 分 区 ， 参 数 shuffle 设置 为 false, HH shuffle 的 
过 程 。 

2) 也 可 以 用 另 一 种 方法 ， 修 改 mapRDDs. reduce | (queuel , queue2) ---} 方法 的 聚合 操 
作 ， 不 再 使 用 “queuel ++= queue2”， 而 是 将 后 面 的 toArray. sorted ( ord) 1 A reduce 中 ， 
次 reduce 后 取 queuel queue2 的 TopN， 这 种 方法 其 实 就 是 再 次 利用 val mapRDDs = mapPar- 
titions | …} 中 对 分 区 排序 的 处 理 方式 。 实 际 上 这 种 方法 是 没有 必要 的 ， 如 果 数 据 量 小 ， 直 
接合 并 后 再 排序 效率 会 更 高 ， 如 果 数 据 量 大 ， 那 么 在 Driver Program 端 进行 排序 就 失去 了 分 
布 式 并 行 计算 的 优势 了 。 

这 里 使 用 “queuel ++= queue2” 是 由 于 大 部 分 场景 下 ，TopN 的 N 值 都 不 会 太 大 ， 即 使 
“++” 也 不 会 造成 OOM 的 问题 ， 而 上 面 两 种 解决 方法 ， 都 是 一 种 用 性 能 换 内 存 的 权衡 结 
果 ， 大 部 分 场景 下 是 不 需要 的 。 

三 十 九 、repartition 

1. 定义 


def repartition ( numPartitions :Int) :DataFrame 
2. 功能 描述 
返回 一 个 DataFrame， 该 DataFrame 按 指定 numPartitioins 对 原 DataFrame 进行 重 分 区 。 
3. 示例 


scala > df. repartition( 1 ). rdd. partitions. size 
res13:Int =1 
scala » df. rdd. partitions. size 
res16:Int =2 
示例 中 ， 重 分 区 后 返回 的 DataFrame 对 应 的 RDD 的 分 区 个 数 已 经 改 为 1。 
DataFrame 的 分 区 ， 实 际 上 对 应 其 RDD 的 数据 分 区 。 因 此 分 区 个 数 也 对 应 了 RDD 的 分 
区 个 数 。 
四 十 、toJSON 
1. 定义 
def toJSON ; RDD[ String ] 


2. 功能 描述 
把 DataFrame 的 内 容 用 包含 JSON FIFRA RDD 返回 。 
3. 示例 


// 调 用 toJSON 进行 转换 
scala > df. toJSON 
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res4 : org. apache. spark. rdd. RDD [ String ] = MapPartitionsRDD [ 18 ] at mapPartitions at 
DataFrame. scala:790 


// FA collect 获取 转换 结果 
scala > df. toJSON. collect 
15/04/05 11:04:43 INFOmapred. FileInputFormat ; Total input paths to process :1 

res5 ; Array [ String] = Array (| " age" : 33," deptId" : 1," gender" ;" male" ," job number" ;" 001" ," 
name" ;" Michael" ," salary" : 30001 , | " age" :30," deptId" :2," gender" ;" female" ," job number" ;" 


, 


002" ," name" :" Andy" ," salary" :4000} , |" age" :19," deptId" :3," gender" :" male" ," job number" ;" 


, 


003" ," name" ;" Justin" ," salary" : 5000 } , | " age" : 32," deptId" : 1," gender" :" male" ," job num- 
ber" :" 004" ," name" :" John" ," salary" : 6000} , | " age" :20," deptId" :2," gender" :" female" ," job 
number" ; "005" ," name" :" Herry" ," salary" :7000| , |" age" :26," deptId" :3," gender" :" male" ," job 
number" ;" 006" , "name" :" Jack" ," salary" :3000] ) 


四 十 一 、queryExecution 
1. 定义 
val queryExecution ; QueryExecution 


2. 功能 描述 
返回 DataFrame 的 查询 执行 语句 ， 包 含 逻辑 计划 和 物理 计划 。 
3. 示例 


scala > df. queryExecution 
res44 : org. apache. spark. sql. SQLContextifQuery Execution = 
== Parsed Logical Plan == 
Relation[ age#86L , deptId#87L, gender#88 ,job number#89 , name#90, salary#91L | JSONRelation ( /user/ 
harli/data/people. json, 1.0, None) 
== Analyzed Logical Plan == 
Relation[ age#86L , deptId#87L, gender#88 ,job number#89 , name#90, salary#91L | JSONRelation(/user/ 
harli/data/people. json, 1.0, None) 
== Optimized Logical Plan == 
Relation[ age#86L , deptId#87 L , gender#88 ,job number#89 , name#90, salary#91L | JSONRelation(/user/ 
harli/data/people. json, 1.0, None) 
== Physical Plan == 
PhysicalRDD [ age#86L, deptld#87L, gender#88 , job number#89 , name #90 , salary#91L | , MapPartition- 
sRDD[ 135] at map at JsonRDD. scala:41 
Code Generation; false 
==RDD == 


Spark SQL 处 理 各 种 数据 源 的 案例 与 解析 


通常 在 企业 中 使 用 的 数据 有 多 种 格式 ， 因 此 需要 支持 多 种 数据 来 源 的 处 理 ， 将 不 同 数据 
源 集成 到 企业 统一 的 大 数据 平台 下 。Spark SQL 支持 从 各 种 数据 源 加 载 文件 构建 DataFrame， 
以 及 将 DataFrame 保存 到 各 种 数据 源 中 。 

在 进行 数据 源 集成 之 前 ， 先 对 Spark SQL 的 数据 源 进行 分 析 ， 下 面 是 从 源码 角度 ， 对 内 
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置 的 数据 源 、 数 据 源 的 查找 两 个 方面 进行 分 析 。 

查看 源码 ， 可 以 从 任何 一 个 加 载 数 据 源 的 接口 触发 ， 最 后 找到 解析 数据 源 的 代码 。 这 里 
数据 源 的 源码 在 ddl. scala 文件 中 ， 相 关 代码 如 下 所 示 。 

1. 构建 数据 源 的 源码 © 


private val builtinSources = Map( 
"jdbc" -> classOf[ org. apache. spark. sql. jdbc. DefaultSource | , 
"json" -> classOf[ org. apache. spark. sql. json. DefaultSource | , 
"parquet" —> classOf[ org. apache. spark. sql. parquet. DefaultSource | 


) 


可 以 看 到 ， 这 里 Spark SQL 内 置 的 数据 源 支 持 缩写 方式 ,包含 “jdbc”“json” 和 
“parquet” 这 三 种 ， 对 应 类 如 图 3. 11 所 示 。 


Enter class name: Include non-project classes (Ctr|+h 


Q DefaultSouree 


e torg. apache. spark. sql. sources) 


@ Defaults: 


3.11 Spark SQL 内 置 的 数据 源 类 


为 外 ， 通 过 数据 源 的 查找 的 源码 可 以 看 出 ， 查 找 时 可 以 指定 数据 源 类 名 的 全 路 径 的 
前 级 。 


2. 查找 数据 源 的 源码 


/** 根据 给 定 的 名 字 ,查找 对 应 的 数据 源 的 类 的 定义 */ 
def lookupDataSource( provider ; String) :Class[ _] = | 
// 在 内 置 数据 源 中 ,直接 返回 类 名 
if ( builtinSources. contains( provider) ) | 
return builtinSources( provider) 
| 
// 不 在 内 置 数据 源 中 ,加载 给 定名 字 指 定 的 类 
val loader = Utils. getContextOrSparkClassLoader 
try | 
loader. loadClass( provider ) 
} catch | 
case cnf:java. lang. ClassNotFoundException => 
try | 
loader. loadClass( provider + ". DefaultSource" ) 
} catch | 
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case cnf:java. lang. ClassNotFoundException => 


sys. error(s" Failed to load class for data source $provider" ) 


| 
| 


这 里 可 以 看 到 ， 当 查找 数据 源 时 ,会 从 内 置 支持 是 三 种 的 数据 源 中 先进 行 查 找 ， 查 找 失 
败 时 ， 以 输入 的 数据 源 类 路 径 加 类 名 “. DefaultSource” 构建 出 数据 源 实例 。 

可 以 通过 继承 特质 RelationProvider 来 自 定 义 数据 源 类 来 扩展 Spark SQL， 现 有 的 继承 类 
如 图 3. 12 所 示 。 


Choose implementation of RelationProvider (8 classes found) # 


5 


Ss 


ql Eg 
sql Pa 
sql Ca 
sql Eg 
sql Ga 
sal B] 
sq 
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图 3. 12 Spark SQL 数据 源 的 DefaultSource 类 


oo 通用 的 加 载 / 保 存 功 能 的 案例 与 解析 


Spark SQL 提供 了 两 种 方式 从 各 种 数据 源 加 载 数据 以 构建 DataFrame， 可 以 使 用 特定 的 方 
法 或 通用 的 方法 以 默认 的 数据 源 来 直接 加 载 数 据 源 ， 也 可 以 通过 指定 具体 数据 源 的 方法 ， 用 
通用 的 方法 来 加 载 数据 。 

同时 Spark SQL 也 提供 DataFrame 的 持久 化 操作 。 

这 部 分 内 容 介 绍 了 如 何 加 载 和 持久 化 DataFrame。 为 了 方便 查看 反馈 信息 ， 以 交互 式 方 
式 启动 Spark。 

一 、 加 载 /保存 数据 源 的 最 简单 的 方式 

加 载 、 保 存 DataFrame 的 最 简单 的 方式 是 使 用 默认 的 数据 源 来 进行 所 有 操作 。 默 认 的 数 
据 源 是 内 置 的 “parquet” 数 据 源 ， 可 以 通过 修改 配置 sparkSpark. sql. sources. default 将 其 他 
数据 源 作为 默认 值 。 

1. 使 用 针对 特定 数据 源 的 方法 

下 边 介绍 SQLContext 提供 的 针对 特定 数据 源 加 载 文件 的 方法 ， 包 括 加 载 方 法 和 保存 
方法 。 

1) 加 载 数据 源 ， 代 码 如 下 所 示 : 


scala > val people = sqlContext. jsonFile( " /user/harli/ data/ people. json" ) 
15/04/05 00: 56: 13 INFOmapred. FileInputFormat : Total input paths to process :1 
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people :org. apache. spark. sql. DataFrame = [ age : bigint , deptld : bigint , gender: string, job number: string, 
name: string, salary : bigint | 

scala > val people = sqlContext. parquetFile( " /user/harli/data/ people. parquet" ) 

people : org. apache. spark. sql. DataFrame = [ age : bigint , deptld : bigint , gender: string, job number: string, 


name ; string, salary ; bigint | © 
这 里 使 用 了 两 种 方法 ，jsonFile 和 parquetFile, 2) 5]JH2X “json” FI "parquet" AY BL 
据 源 [o] 
2) 保存 DataFrame 实例 到 数据 源 ， 代 码 如 下 所 示 : 


scala > people. saveAsParquetFile( " save. parquet" ) 


查看 Web Interface 界面 ， 如 图 3.13 所 示 。 


Qo | 图 cluster01:50070/explorer.htmlst/user/harli/save.parquet v @| |B Google ag 


Hadoop 


Browse Directory 


fuser/harli/save parquet Go! 
1 
Permission Owner Group Size Replication Block Size Name 
TW-AT--- harli supergroup 574B 1 128 MB _common_metadata 
TW---- harli supergroup 574B 1 128 MB .metadata 
drwxr-xr-x harli supergroup oB 0 0B _temporary 


Hadoop. 2014. 


3.13 Hadoop 文件 系统 在 saveAsParquetFile 后 的 界面 


当前 没有 指定 具体 路 径 ， 在 使 用 HDFS 作为 存储 系统 时 ， 默 认 会 放 在 HDFS 文件 系统 中 
当前 用 户 的 目录 下 ， 即 juser/harli 目录 ， 在 指定 的 路 径 目 录 下 ,可 以 看 到 文件 已 经 保存 
成 功 。 

注意 : 如 果 目 录 以 /开头 ， 则 对 应 的 是 HDFS HARA RK (对 应 core - site. xml 中 的 fs. default FS 配置 属 
JE), ， 而 非 当 前 用 户 所 在 目录 下 。 比 如 /tmp， 对 应 为 hdfs: //namenode: port/tmp, 3 P namenode 为 启动 Na- 
meNode 进程 的 节点 ， 当 前 环境 下 的 节点 地 址 为 192. 168. 70. 214。 

2. 使 用 默认 数据 源 的 方法 

1) 确认 默认 的 数据 源 是 否 已 经 设置 。 可 以 通过 查询 当前 的 默认 配置 ， 确 保 是 默认 的 
“parquet” 数据 源 ， 命 令 行 输 入 如 下 : 


scala > sc. getConf. get( "spark. sql. sources. default" ," a" ) 


resl :String = a 


可 以 看 到 ， 当 前 没有 设置 默认 的 数据 源 ， 此 时 如 果 使 用 默认 数据 源 去 加 载 (或 者 保存 ) 
的 话 会 报错 。 

通过 spark - shell AY - conf 选项 以 Key = Value 的 形式 来 设置 默认 数据 源 参数 ， 重 新 启动 
spark — shell: 
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[ harli @ wxx215 spark - 1.3.0 - bin - hadoop2.4 ] $./bin/spark - shell — — master spark:// 
192. 168. 70. 214 :7077 — conf "spark. sql. sources. default " =" parquet" 


这 里 使 用 - conf 选项 将 配置 属性 spark. sql. sources. default 设置 为 parquet, WAZE It 
界面 后 ， 重 新 查询 该 属性 值 ， 语 句 如 下 : 


scala > sc. getConf. get( "spark. sql. sources. default" ," a" ) 
resO :String = parquet 
默认 数据 源 已 经 成 功 设 置 。 
2) 加 载 数据 源 。 以 默认 的 数据 源 “parquet” 加 载 文 件 : 
// 以 通用 加 载 数据 源 方法 ,来 加 载 默 认 数 据 源 的 文件 
scala > val people = sqlContext. load( " /user/harli/ data/ people. parquet" ) 


people :org. apache. spark. sql. DataFrame = [ age : bigint , deptld : bigint , gender: string, job number; string, 
name ; string, salary : bigint | 


可 以 继续 从 加 载 后 的 people 中 选取 某 些 列 ， 然 后 保存 到 默认 数据 源 上 ， 如 ; 
// 以 通用 持久 化 方法 ,来 持久 化 默认 数据 源 的 文件 


scala > df. select( " name" ," age" ). save( " namesAndAges. parquet" ) 
15/04/05 00: 43: 17 INFOhadoop. ParquetFileReader ; Initiating action with parallelism ;5 
这 里 从 df 中 选取 了 “name”,“age” 两 列 信息 ， 然 后 保存 到 HDFS 文件 系统 中 当前 用 户 
的 目录 下 的 “namesAndAges. parquet” 目录 中 。 
通过 Web Interface (http: //namenode: 50070) 界面 查看 文件 信息 ， 如 图 3.14 
所 示 。 


Qo | @ cluster01:50070/explorer.html4/user/harli/namesAndAges. parquet v @| |B Google a 


€ 


Hadoop 


Browse Directory 


Juser/harlilnamesAndAges.parquet 


Permission Owner Group Size Replication Block Size Name 

TW- harli supergroup 0B 1 128 MB SUCCESS 

"TWA harli supergroup 2808 1 128 MB .common metadata 
Wot harli supergroup 5928 1 128 MB metadata 

WA- harli supergroup 565B 1 128 MB part-r-00001.parquet 
Swett harli supergroup 537B 1 128 MB part-r-00002.parquet 


Éd 3.14  hadoop 文件 系统 在 save 后 的 界面 


然后 将 整个 people 保存 为 parquet 格式 ， 目 录 为 people. parquet: 


scala > people. save( " /user/harli/data/people. parquet" ) 
15/04/05 00: 34: 31 INFOmapred. FileInputFormat ; Total input paths to process :1 
15/04/05 00: 34: 32 INFOhadoop. ParquetFileReader ; Initiating action with parallelism ;5 
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这 里 可 以 看 到 ,输入 文件 的 类 型 为 FilelnputFormat, 3834 hadoop. ParquetFileReader i 

读 取 后 的 并 行 度 (parallelism) 为 5。 

二 、 指 定数 据 源 的 方式 

1 指定 数据 源 加 载 文 件 S 
这 里 使 用 load 方法 ， 加 载 文 件 people. json， 对 应 数据 源 为 “json”。 


// 以 通用 加 载 数 据 源 的 方法 ,指定 具体 数据 源 来 加 载 文 件 


scala > val people = sqlContext. load( " /user/harli/ data/ people. json" ," json" ) 


, 


15/04/05 00: 31: 43 INFOmapred. FileInputFormat : Total input paths to process :1 
people : org. apache. spark. sql. DataFrame = [ age : bigint , deptld : bigint , gender: string, job number: string, 
name ; string, salary : bigint | 


这 里 使 用 load 方法 ， 加 载 文 件 people. parquet, XJ ZG VIA “parquet” > 


scala > val people = sqlContext. load(" /user/harli/data/ people. parquet" , " parquet" ) 


people : org. apache. spark. sql. DataFrame = [ age : bigint , deptld : bigint , gender: string, job number: string, 
name ; string, salary ; bigint | 


2. 指定 数据 源 保存 文件 
将 加 载 后 的 people 保存 到 HDFS 文件 系统 当前 用 户 的 目录 下 的 “save. json” 目 录 中 ， 保 
TFH json 文件 : 


scala > people. save( " save. json" ," json" ) 


通过 Web Interface( http: //namenode: 50070) 界面 查看 文件 信息 ， 如 图 3. 15 所 示 。 


{Spark Master at spark//tus... X |£} Browsing HDFS x [e] 
mist/user/harli/save json ~ @| |B Google aga 


$e | @ cluster01:50070/explore: 


Browse Directory 


Juser/harli/save json Go! 


Permission Owner Group size Replication Block Size Name 
drwxr-xr-x harli supergroup DB 0 0B _temporary 
Hadoop, 2014. 
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三 、 保 存 模式 (Save Modes) 

保存 操作 时 可 选择 保存 模式 方式 ， 来 指定 如 果 现 有 数据 已 经 存在 的 话 该 如 何 处 理 。 重 要 
的 是 要 意识 到 这 些 保存 模式 不 使 用 任何 锁 操 作 ， 而 且 也 不 具备 原子 性 。 因 此 ， 当 尝试 对 同一 
位 置 进行 多 个 写 操 作 时 ， 写 操作 是 不 安全 的 。 男 外 ， 当 执行 一 个 覆盖 操作 (SaveMode. 
Overwrite) 时 ， 在 写 新 数据 之 前 会 先 删除 原 有 数据 。 具 体 的 保存 模型 参考 表 3.2 的 内 容 。 
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表 3.2 保存 模式 及 其 含义 


Scala/Java Python 含 义 
SaveMode. ErrorlfExists ( de-| |, ” ( default) 当 保 存 一 个 DataFrame 到 一 个 数据 源 时 ， 如 果 数 据 已 经 存在 ， 将 
fault) mb aa 会 抛 出 一 个 异常 

SaveMode. Append * append" 当 保存 一 个 DataFrame 到 一 个 数据 源 时 ， 如 果 数据 / 表 已 经 存在 ， 

MELDE d di 将 会 把 DataFrame 的 数据 添加 到 现 有 的 数据 中 
SaveMode, O " " ite” overwrite 模式 意味 着 当 保 存 一 个 DataFrame 到 一 个 数据 源 时 ， 如 

aveMode. Overwrite TWT " 1 N E 

iid NS 果 数据 / 表 已 经 存在 的 话 ， 将 会 用 DataFrame 的 数据 覆盖 现 有 的 数据 
ignore 模式 意味 着 当 保 存 一 个 DataFrame 到 一 个 数据 源 时 ， 如 果 
os 2 数据 / 表 已 经 存在 的 话 ， 将 不 会 保存 DataFrame 的 数据 ， 也 不 会 修改 
SaveMode. Ignore ignore now m ES "e 
现 有 的 数据 。 这 与 SQL 中 的 “CREATE TABLE IF NOT EXISTS 操作 


类 似 


在 实际 保存 操作 中 ， 需 要 注意 各 种 数据 源 对 保存 模式 使 用 的 限制 ， 比 如 “parquet” 类 
型 的 数据 源 当 前 只 支持 overwrite 的 保存 模式 ， 当 使 用 其 他 保存 模式 时 会 报 不 支持 的 错误 。 
四 、 保 存 到 持久 化 的 表 中 
先 加 载 文件 到 people 中 : 


scala > val people = sqlContext. load( " /user/harli/data/people. json" ," json" ) 
15/04/05 00: 31: 43 INFOmapred. FileInputFormat : Total input paths to process :1 
people; org. apache. spark. sql. DataFrame = | age : bigint , deptId : bigint , gender: string, job number: string, 


name : string, salary : bigint | 
使 用 saveAsTable 方法 ， 将 people 保存 到 表 people 中 : 


scala > people. saveAsTable( " people" ) 

15/04/05 01:39:25 INFOmetastore. HiveMetaStore :0: get. table;db = default tbl = people 

15/04/05 01: 39: 25 INFOHiveMetaStore. audit; ugi = harliip = unknown - ip ~ addremd = get. table; db = 
default tbl = people 
15/04/05 01:39:25 INFOmetastore. HiveMetaStore :0 ; get. database ; default 

15/04/05 01 : 39: 25 INFOHiveMetaStore. audit; ugi = harliip = unknown - ip — addremd = get _ 
database ; default 
15/04/05 01: 39: 25 INFOmetastore. HiveMetaStore :0 : get. table;db = default tbl = people 

15/04/05 01:39:25 INFOHiveMetaStore. audit; ugi = harliip = unknown — ip ~ addremd = get. table; db = 
default tbl = people 


持久 化 到 表 中 和 注册 为 临时 表 是 不 一 样 的 ， 临 时 表 在 应 用 退出 后 会 自动 销毁 ， 而 持久 化 
到 表 中 是 持久 化 到 存储 系统 上 ， 应 用 退出 后 不 会 销毁 。 

保存 后 的 Web Interface 界面 ， 如 图 3. 16 所 示 。 

如 图 所 示 ， 保 存 后 自动 创建 了 目录 hive 及 其 子 目 录 warehouse， 并 在 该 子 目 录 下 生成 了 
保存 表 people 的 目录 。 

五 、 应 用 场景 

1. Spark SQL 应 用 程序 可 以 集成 各 种 类 型 的 数据 源 ， 包 含 不 同 数据 源 之 间 的 存储 转换 、 
格式 转换 等 ， 比 如 ， 将 json 文件 格式 转换 为 parquet 格式 ,将 HDFS 上 的 json 文件 存储 到 
jdbe 中 等 。 

2. 基于 “one stack to rule them all” WEH, Spark 中 的 各 个 子 框架 和 库 之 间 可 以 实现 无 
颖 的 数据 共享 和 操作 ， 而 基于 Spark SQL 对 各 种 数据 源 的 支持 ， 同 时 就 是 为 其 他 各 个 子 框 
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[EPPpars masterat sparw;rcuus;; es orowsing nur» ~ pr 


We @ cluster01:5 


Hadoop s Utilities 


Browse Directory 


Juser/hivejwarehouse/people Go! 
Permission Owner Group Size Replication Block Size Name 
AUCH harli supergroup 5748 t 128 MB _common_metadata 
Wtf harli supergroup 5748 1 128 MB metadata 
drwxr-xr-x harli supergroup 06 0 08 -temporary 


Éd 3.16 Hadoop 文件 系统 在 持久 化 到 表 后 的 界面 


ZR, Spark Streaming, MLlib, GraphX 提供 了 各 种 数据 源 的 支持 。 因 此 ， 在 其 他 子 框架 需要 
时 ， 可 以 使 用 Spark SQL 来 加 载 或 持久 化 数据 。 


555 Parquet 文件 处 理 的 案例 与 解析 


一 、 加 载 数 据 

通过 加 载 parquet 数据 源 ， 并 将 加 载 后 的 people 注册 到 临时 表 中 ， 然 后 使 用 SQL 语句 对 
该 临时 表 进 行 操作 ， 最 后 将 操作 结果 打印 出 来 。 

如 下 所 示 : 


scala > val people = sqlContext. parquetFile( " /user/harli/data/people. parquet" ) 

people : org. apache. spark. sql. DataFrame = [ age : bigint , deptld : bigint , gender: string, job number: string, 
name: string, salary : bigint | 

scala > people. registerTempTable( " parquetFile" ) 

scala > val teenagers = sqlContext. sql( " SELECT name FROM parquetFile WHERE age >= 13 AND age 
<=19") 

15/04/05 01: 50: 36 INFO parse. ParseDriver; Parsing command; SELECT name FROM parquetFile 
WHERE age >=13 AND age <=19 

15/04/05 01: 50: 36 INFO parse. ParseDriver; Parse Completed 

teenagers : org. apache. spark. sql. DataFrame = [ name: string | 

scala » teenagers. show 

name 

Justin 

scala > teenagers. map(t =>" Name;" + t(0)). collect( ). foreach( println) 


Name: Justin 


二 、 分 区 发 现 

在 类 似 于 Hive 的 系统 上 ， 表 分 区 是 一 种 常见 的 优化 方法 。 在 一 个 分 区 表 中 ， 数 据 通 稼 
存储 在 不 同 的 目录 中 ， 并 将 分 区 列 值 编码 到 每 个 分 区 目录 的 路 径 上 。 现 在 ，Parquet 数据 源 
可 以 自动 地 发 现 和 推导 分 区 信息 。 

例如 ,我 们 可 以 添加 额外 的 列 “gender”， 作 为 我 们 的 分 区 列 ， 用 以 下 目录 结构 ， 可 将 
DataFrame 实践 案例 中 的 员工 信息 数据 存储 到 分 区 表 中 。 
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path 
L—to 
L— table 
gender-male 
— data.parquet 
gender-female 
L— data.parquet 
gw 


通过 将 分 区 表 的 路 径 传 递 到 SQLContext parquetFile 或 SQLContext. load, Spark SQL 会 自 
动 地 从 路 径 中 提取 分 区 信息 。 这 时 候 返 回 的 DataFrame 的 schema 就 构建 成 功 了 。 


| —— name:string (nullable = true) 
| -- age:long (nullable = true) 
| —— gender; string (nullable = true) 


| —— salary :string (nullable = true) 


注意 : 分 区 表 中 用 于 分 区 的 列 的 数据 类 型 是 自动 推导 的 ， 目 前 自动 推导 支持 数字 数据 类 型 和 字符 串 
类 型 。 

具体 的 示例 可 以 参考 下 一 部 分 内 容 : 合并 schema, 

三 、 合 并 schema 

与 ProtocolBuffer，Avro 和 Thrift 一 样 ，Parquet 也 支持 schema 演变 ， 用 户 可 以 先 使 用 一 
个 简单 的 schema， 然 后 根据 需要 逐步 添加 更 多 的 列 到 schema 中 。 通 过 这 种 方式 ， 最 终 可 以 
让 多 个 不 同 的 Parquet 在 schema 上 互相 兼容 。Parquet 数据 源 目前 可 以 自动 检测 到 这 种 情况 ， 
并 合并 所 有 这 些 文件 。 

以 下 案例 说 明了 合并 schema 的 详细 步骤 : 


// 构 建 一 个 元 素 值 为 (i,i*2) 的 RDD, 并 转化 为 列 名 为 ("single" ," double" ) 的 DataFrame 
scala > val dfl = sc. makeRDD(1 to 5). map(i=>(i,i * 2)). toDF(" single" ," double" ) 
dfl :org. apache. spark. sql. DataFrame = [ single; int , double; int ] 

// 将 构建 的 dfl 存储 到 test. table 的 key =1 FART 

scala > dfl. saveAsParquetFile( " data/test table/key = 1" ) 

15/04/05 03: 42: 59 INFOhadoop. ParquetFileReader ; Initiating action with parallelism ;5 
scala > val df2 = sc. makeRDD(6 to 10). map(i => (i,i * 3)). toDF(" single" ," triple" ) 
df2 :org. apache. spark. sql. DataFrame = [ single : int, triple ; int | 

// 将 构建 的 dfl 存储 到 test table 的 key =2 子 目录 下 

scala > df2. saveAsParquetFile( " data/test, table/key 2 2" ) 

15/04/05 03: 43: 48 INFOhadoop. ParquetFileReader ; Initiating action with parallelism ;5 
// 解 析 包 含 前 面 两 个 子 目 录 的 test_table 目录 为 parquet 数据 源 

// 并 自动 推导 出 对 应 的 schema 信息 

scala > val df3 = sqlContext. parquetFile( " data/test_table" ) 

df3 :org. apache. spark. sql. DataFrame = [ single; int , double : int, triple ; int, key : int ] 


scala » df3. printSchema( ) 
root 
| —— single:integer (nullable = true) 


| —— double: integer (nullable = true) 
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| —— triple; integer (nullable = true) 


| —— key:integer (nullable = true) 


示例 中 ， 首 先 通 过 SparkContext 的 makeRDD 方法 构建 一 个 RDD 实例 ， 然 后 调用 
RDD 实例 的 toDF 方法 指定 schema, ÆJ DataFrame 实例 ， 对 应 的 schema 信息 为 : [single: > 
int, double; int], Ja 1K DataFrame 实例 dfl 保存 到 分 区 路 径 “ data/test_table/key = J 
1” Fo 

用 相同 的 方法 构建 DataFrame 实例 d2 ， 对 应 的 schema 为 [ single:int,triple:int], df2 的 
schema 信息 比 dfl 添加 列 “triple” 列 ， 同 时 删除 了 “double” 列 ， 然 后 保存 到 分 区 路 径 “da- 
ta/test_table/key =2” 下 。 

最 后 读 取 分 区 表 到 parquet, HERES A FF “ data/test_table/key = 1” 和 “data/test_table/ 
key =2” 两 个 路 径 的 data/test_table 路 径 。 加 载 构建 DataFrame 实例 dB 之 后 ， 会 自动 推导 出 
df3 的 schema 信息 ， 最 终 推导 出 的 schema 信息 为 [ single:int, double:int,triple:int,key:int]， 
包含 列 dfl 和 df2 的 “single”，“double” 和 “triple” 列 信息 ， 以 及 出 现在 分 区 路 径 上 的 
“key” 分 区 列 信息 。 


JSON 数据 集 操作 的 案例 与 解析 ) 


Spark SQL 可 以 自动 推导 出 一 个 JSON 数据 集 的 schema 并 加 载 它 来 构建 一 个 DataFrame 
这 种 转换 可 以 通过 SQLContext 的 以 下 两 种 方法 之 一 来 实现 。 

1) jsonFile: 可 以 从 一 个 JSON 文件 的 目录 加 载 数据 ， 文 件 中 的 每 一 行 都 对 应 一 个 JSON 
对 象 。 

2) jsonRDD: 可 以 从 一 个 现 有 的 RDD 实例 中 加 载 数据 ，RDD 中 的 每 一 个 元 素 都 是 包含 
— JSON 对 象 的 字符 串 。 

注意 : 作为 jsonFile 的 文件 不 是 一 个 典型 的 JSON 文件 。 每 一 行 必须 包含 一 个 单独 的 、 有 效 的 JSON 对 
象 。 因 此 ， 普 通 的 多 行 JSON 文件 通常 会 失败 。 

通过 jsonFile 加 载 文件 构建 DataFrame 的 示例 : 


scala > val people = sqlContext. jsonFile( " /user/harli/ data/people. json" ) 

15/04/05 06: 52: 36 INFOmapred. FileInputFormat ; Total input paths to process :1 

people; org. apache. spark. sql. DataFrame = | age : bigint , deptId : bigint , gender: string, job number: string, 
name: string, salary ; bigint | 

scala > people. printSchema 

root 

—— age:long (nullable = true) 

—- deptld :long (nullable = true) 

—— gender; string (nullable = true) 

—— job number: string (nullable = true) 


-- name:string (nullable = true) 


—— salary :long (nullable = true) 

scala > people. registerTempTable( " people" ) 

scala > val teenagers = sqlContext. sql ( " SELECT name FROM people WHERE age >= 13 AND age <= 
19" ) 
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15/04/05 06: 54: 52 INFO parse. ParseDriver: Parsing command; SELECT name FROM people WHERE 
age >=13 AND age <=19 
15/04/05 06: 54: 53 INFO parse. ParseDriver; Parse Completed 


teenagers : org. apache. spark. sql. DataFrame = [ name: string | 


scala » teenagers. show 
15/04/05 06: 55: 06 INFOmapred. FileInputFormat : Total input paths to process :1 
name 


Justin 


示例 中 加 载 people. json 这 个 文件 构建 出 people， 并 通过 printSchema 方法 打 出 people 
的 自动 推导 出 的 schema 信息 ， 同 时 ， 将 people 注册 为 临时 表 “people”， 然 后 通过 sql 方法 
用 SQL 查询 语句 从 “people” 临 时 表 中 查找 年 龄 在 指定 范围 的 名 字 信 息 。 

通过 现 有 RDD 构建 DataFrame 的 示例 


pun 


// 构 建 List 实例 ,元 素 类 型 为 json 格式 的 字符 
scala» """ |" ' "address" ; | " city" :" Columbus" ," state" :" Ohio" | | """ ; ; Nil 
res3 : List| String] List( | um) aL Yin" ; " address" : i " city" g" Columbus" g " state" a" Ohio" } } ) 


// 构 建 RDD 实例 ,元 素 类 型 为 json AFE A 


"nnn i " 


name" :" Yin' 


py 


scala > valanotherPeopleRDD = sc. parallelize ( name" ;" Yin" ," address" ; | " city" :" Colum- 
bus" ," state" ;" Ohio" | | """ : : Nil) 

anotherPeopleRDD : org. apache. spark. rdd. RDD[ String] = ParallelCollectionRDD[9 | at parallelize at < 
console » :22 


// 从 元 素 类 型 为 json 格式 的 字符 串 的 RDD 构建 出 DataFrame 实例 
scala > val anotherPeople = sqlContext. jsonRDD( anotherPeopleRDD ) 


anotherPeople : org. apache. spark. sql. DataFrame = | address: struct < city: string, state; string > , name: 


string | 

scala » anotherPeople. printSchema 

root 

| —-— address :struct (nullable = true) 

| | -- city:string (nullable = true) 

| | —— state :string (nullable = true) 

| —— name:string (nullable = true) 

示例 中 ,通过 “""" | "name" ;" Yin" ," address" : | " city" :" Columbus" ," state" :" Ohi- 
o"]]"""..Nil" FE Scala 数据 集 ， 类 型 为 List | String], 其 中 字符 囊 “name":" 
Yin" ," address" ; | "city" :" Columbus" ," state" :" Ohio" ] |" """. J£ json 格式 ,包含 两 个 成 员 
E j 


“name” FI “address”, H 其 中 address" 又 由 一 个 数据 结构 组 成 ,包含 “city” 和 “state” 
两 个 成 员 。 

通过 SparkContext 的 parallelize 方法 从 List[ String | 构建 出 RDD 后 ， 再 通过 SQLContext 的 
jsonRDD 方法 将 RDD 实例 转换 为 DataFrame 实例 。 通 过 printSchema 可 以 看 到 构建 时 自动 推 
导出 的 schema。 

注册 临时 表 ， 然 后 使 用 sql 进行 统计 : 


Ht 


scala » anotherPeople. registerTempTable( " people" ) 
// VÀ name Fi] Ef TOHA, 并 根据 count( 个 数 统计 值 ) 进 行 排序 
// 然 后 查找 name 和 address. city 的 个 数 统计 
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// 注 意 :这 里 使 用 的 是 默认 的 HiveContext ,默认 对 应 hive 查询 解析 器 

scala > val dd = sqlContext. sql( " select name, count ( address. city) as count from people group by name 
order by count" ) 

15/04/23 04: 38: 16 WARNHiveConf; DEPRECATED; Configuration property hive. metastore. local no 
longer has any effect. Make sure to provide a valid value for hive. metastore. uris if you are connecting to > 
a remote metastore. 

15/04/23 04: 38: 16 INFOParseDriver : Parsing command : select name ,count( address. city) as count from 
people group by name order by count 

15/04/23 04: 38: 16 INFOParseDriver; Parse Completed 

dd : org. apache. spark. sql. DataFrame = [ name: string , count; bigint ] 

scala » dd. show 

name count 


Yin ] 


对 临时 表 的 sql 操作 ， 根 据 name 进行 group by, VA address. city 统计 个 数 进 行 order by, 
然后 获取 name 和 address. city 统计 个 数 信息 ， 构 建新 的 DataFrame。 

Spark SQL 通过 Spark. sql. dialect 这 个 配置 属性 ， 来 设置 Spark SQL 使 用 哪 种 解析 器 来 解 
析 查 询 的 SQL 语句 ， 可 以 通过 SQLContext 实例 的 setConf 方法 或 在 sql 方法 中 使 用 一 个 “SET 
key = value" 命令 来 设置 该 配置 属性 ， 对 于 SQLContext， 仅 支持 取 值 为 “sql” 的 dialect, 
Spark SQL 使 用 取 值 为 “sql” 的 dialect 来 提供 简单 的 SQL 解析 器 。 而 对 于 HiveContext， 默 
认 使 用 的 dialect 取 值 为 “hiveql”， 同 时 dialect 的 取 值 为 “sql” 也 是 支持 的 。 由 于 HiveQL 
解析 器 是 更 完整 的 ， 一 般 建 议 使 用 取 值 为 “hiveql” 的 dialect; 


// 使 用 getConf 方法 获取 当前 的 配置 属性 
scala > sqlContext. getConf( " spark. sql. dialect" ,"") 


res8 ; String = 
//#E sql 中 使 用 set 命令 设置 配置 属性 


scala > sqlContext. sql( " set spark. sql. dialect = sql" ) 


res10 : org. apache. spark. sql. DataFrame = | :string | 

scala > sqlContext. getConf( " spark. sql. dialect" ,"" ) 

res11 :String = sql 

scala > val dd = sqlContext. sql ( " select name, count ( address. city) as addcount from people group by 
name order by addcount" ) 

dd : org. apache. spark. sql. DataFrame = [ name : string, addcount ; bigint | 

scala » dd. show 

nameaddcount 


Yin ] 


注意 在 使 用 不 同 的 dialect 时 ， 注 意 SQL 的 语法 支持 ， 比 如 在 dialect 为 “sql” 时 ,不 要 使 用 保留 字 
来 命名 ， 如 : 


scala > val dd = sqlContext. sql( " select name, count( address. city) as count from people group by name 
order by count" ) 
java. lang. RuntimeException: [1.37] failure;'uniotf expected but count found 
select name , count( address. city) as count from people group by name order by count 
at scala. sys. package$. error( package. scala:27) 


at org. apache. spark. sql. catalyst. AbstractSparkSQLParser. apply ( AbstractSparkSQLParser. scala :40) 
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at org. apache. spark. sql. SQLContext#anonfun$2. apply ( SQLContext. scala; 130) 

at org. apache. spark. sql. SQLContext#anonfun$2. apply ( SQLContext. scala; 130) 

at org. apache. spark. sql. SparkSQLParser$$ anonfun$ org$ apache$ spark $ sql $ SparkSQLParser$$ oth- 
ers$1. apply ( SparkSQLParser. scala :96 ) 

at org. apache. spark. sql. SparkSQLParser$$ anonfun$ org$ apache $ spark $ sql $ SparkSQLParser$$ oth- 
ers$1. apply ( SparkSQLParser. scala 95) 


这 里 使 用 count 这 个 保留 字 作 为 别名 ， 从 而 导致 了 SQL 查询 解析 器 语法 解析 时 出 错 ， 执 
行 命令 失败 。 修 改 别名 后 : 


scala > sqlContext. sql( " set spark. sql. dialect = sql" ) 

res22 : org. apache. spark. sql. DataFrame = | :string | 

scala > val dd = sqlContext. sql( " select name ,count( address. city) as count] from people group by name 
order by countl" ) 

dd: org. apache. spark. sql. DataFrame = | name: string, count! ; bigint | 

scala » dd. show 

name countl 


Yin 1 
对 应 的 ，dialect 为 “hiveql” 时 ， 同 样 的 命令 是 可 以 正确 执行 的 ; 


scala > sqlContext. sql( " set spark. sql. dialect = hiveql" ) 

res19 : org. apache. spark. sql. DataFrame = | :string | 

scala > sqlContext. getConf( " spark. sql. dialect" , " " ) 

res20 ; String = hiveql 

scala > val dd = sqlContext. sql( " select name, count ( address. city) as count from people group by name 
order by count" ) 

15/04/23 05: 11: 33 WARNHiveConf; DEPRECATED; Configuration property hive. metastore. local no 
longer has any effect. Make sure to provide a valid value for hive. metastore. uris if you are connecting to 
a remote metastore. 

15/04/23 05: 11: 33 INFOParseDriver; Parsing command; select name , count( address. city) as count from 
people group by name order by count 

15/04/23 05: 11: 33 INFOParseDriver:; Parse Completed 

dd : org. apache. spark. sql. DataFrame = [ name; string, count; bigint ] 

scala » dd. show 

name count 


Yin ] 


注意 : 在 使 用 SQL 查询 语句 时 ， 需 要 注意 使 用 语句 的 语法 正确 性 。 查 询 当 前 的 “spark. sql. dialect" 
值 即 可 获取 使 用 的 具体 查询 解析 器 名 称 。 


于 证 于 操作 Hive 表 的 案例 与 解析 


Spark SQL 还 支持 读 写 存储 在 Apache Hive 中 的 数据 。Spark 1. 3 版 本 中 ，Spark 默认 构建 
实例 时 包含 “ -Phive” 启 用 和 “ - Phive -thriftserver” 这 两 个 profile， 因 此 实例 构建 后 就 已 
经 支持 Hive。 可 以 通过 将 现 有 的 Hive 部 署 的 hive - site. xml 配置 文件 放置 到 Spark 部 署 的 
conf 目录 下 ， 来 访问 现 有 的 Hive 数据 仓库 。 

当 使 用 Hive 时 必须 构造 一 个 HiveContext 实例 ，HiveContext 继承 自 SQLContext， 其 功能 


EUER WEE Spark SQL 实践 案例 与 解析 


是 SQLContext 功能 的 超 集 合 ， 可 以 使 用 更 加 完备 的 HiveQL 解析 器 来 写 查 询 语句 ， 使 用 Hive 
UDFs， 并 可 以 访问 Hive 的 MetaStore, M Hive 表 中 读 取 数据 。 并 且 所 有 在 SQLContext 下 可 
以 获取 的 数据 ， 在 HiveContext 中 仍然 可 以 获取 。 

我 们 不 需要 使 用 一 个 现 有 的 Hive 也 可 以 创建 一 个 HiveContext 实例 ， 当 没有 使 用 hive - 
site. xml 配置 文件 时 ，context 会 自动 地 在 当前 目录 下 创建 metastore_db 和 warehouse, 

我 们 可 以 通过 配置 属性 spark. sql. dialect 来 指定 SQL 所 使 用 的 查询 解析 器 ， 有 具体 使 用 方 
法 可 以 参考 下 面 的 案例 。 

下 面 给 出 两 种 情况 下 使 用 HiveQL 语句 的 示例 。 

一 、 不 使 用 现 有 的 Hive 环境 

1. 构建 表 
通过 “sqlContext sql("CREATE TABLE IF NOT EXISTS sre (key INT, value STRING)" )” 
语句 使 用 HiveQL 的 建 表 语句 ， 构 建 了 一 个 名 为 src 的 Hive K, BE key 和 value 两 列 。 


scala > sqlContext. sql( " CREATE TABLE IF NOT EXISTS sre (key INT,value STRING)" ) 

15/04/05 07:38: 08 INFO parse. ParseDriver; Parsing command; CREATE TABLE IF NOT EXISTS src 
(key INT,value STRING) 

15/04/05 07: 38: 08 INFO parse. ParseDriver; Parse Completed 

15/04/05 07: 38: 08 INFO log. PerfLogger: « PERFLOG method = Driver. run from = org. apache. hadoop. 
hive. ql. Driver > 

15/04/05 07: 38: 08 INFO log. PerfLogger: < PERFLOG method = TimeToSubmit from = org. apache. 
hadoop. hive. ql. Driver > 

15/04/05 07: 38: 08 INFO ql. Driver; Concurrency mode is disabled, not creating a lock manager 
15/04/05 07: 38: 08 INFO log. PerfLogger; < PERFLOG method = compile from = org. apache. hadoop. 
hive. ql. Driver > 

15/04/05 07: 38: 08 INFO log. PerfLogger; < PERFLOG method = parse from = org. apache. hadoop. 

hive. ql. Driver > 

15/04/05 07:38:08 INFO parse. ParseDriver; Parsing command; CREATE TABLE IF NOT EXISTS src 
(key INT,value STRING) 

15/04/05 07: 38: 08 INFO parse. ParseDriver; Parse Completed 

15/04/05 07:38: 08 INFO log. PerfLogger: «/PERFLOG method = parse start = 1428244688097 end = 
1428244688098 duration 21 from = org. apache. hadoop. hive. ql. Driver > 

15/04/05 07: 38: 08 INFO log. PerfLogger: < PERFLOG method = semanticAnalyze from = org. apache. 
hadoop. hive. ql. Driver > 
15/04/05 07: 38: 08 INFO parse. SemanticAnalyzer:Starting Semantic Analysis 

15/04/05 07: 38: 08 INFO parse. SemanticAnalyzer; Creating table sre position 227 

15/04/05 07:38:08 INFOmetastore. HiveMetaStore :0 : get, table:db = default tbl = src 

15/04/05 07: 38: 08 INFOHiveMetaStore. audit; ugi = harliip = unknown - ip ~ addremd = get. table; db = 
default tbl 2 src 
15/04/05 07:38:08 INFOmetastore. HiveMetaStore :0 : get. database ; default 

15/04/05 07: 38: 08 INFOHiveMetaStore. audit; ugi = harliip = unknown - ip — addremd = get _ 
database ; default 
15/04/05 07: 38: 08 INFO ql. Driver: Semantic Analysis Completed 

15/04/05 07: 38: 08 INFO log. PerfLogger: «/PERFLOG method = semanticAnalyze start = 
1428244688098 end = 1428244688101 duration 23 from = org. apache. hadoop. hive. ql. Driver > 
15/04/05 07: 38: 08 INFO ql. Driver; Returning Hive schema; Schema ( fieldSchemas : null , properties : 
null) 


e 
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15/04/05 07:38: 08 INFO log. PerfLogger: «/PERFLOG method = compile start = 1428244688097 end 
= 1428244688102 duration 25 from = org. apache. hadoop. hive. ql. Driver > 

15/04/05 07: 38: 08 INFO log. PerfLogger; < PERFLOG method = Driver. execute from = org. apache. 
hadoop. hive. ql. Driver > 

15/04/05 07: 38: 08 INFO ql. Driver: Starting command; CREATE TABLE IF NOT EXISTS sre (key 
INT, value STRING ) 

15/04/05 07: 38: 08 INFO log. PerfLogger: < /PERFLOG method = TimeToSubmit start = 1428244688097 
end = 1428244688102 duration =5 from = org. apache. hadoop. hive. ql. Driver > 

15/04/05 07: 38: 08 INFO log. PerfLogger: « PERFLOG method = runTasks from = org. apache. hadoop. 
hive. ql. Driver > 

15/04/05 07: 38: 08 INFO log. PerfLogger; < PERFLOG method = task. DDL. Stage - 0 from = 
org. apache. hadoop. hive. ql. Driver > 

15/04/05 07: 38: 08 INFO exec. DDLTask ; Default to LazySimpleSerDe for table src 

15/04/05 07:38: 08 INFOmetastore. HiveMetaStore : 0 ; create, table; Table ( tableName: src , dbName ; de- 
fault , owner; harli , createTime ; 1428244688 , lastAccessTime ; 0, retention: 0, sd; StorageDescriptor (cols: 
[ FieldSchema ( name: key, type: int, comment; null) , FieldSchema ( name: value, type; string, comment; 
null )], location; null, inputFormat; org. apache. hadoop. mapred. TextInputFormat, outputFormat :; 
org. apache. hadoop. hive. ql. io. HivelgnoreKeyTextOutputFormat , compressed; false, numBuckets; - 1, 
serdeInfo ; SerDeInfo( name ; null , serializationLib : org. apache. hadoop. hive. serde2. lazy. LazySimpleSerDe, 
parameters ; | serialization. format = 1 } ) , bucketCols: [ ] , sortCols: [ ] , parameters; | | , skewedInfo: 
SkewedInfo( skewedColNames: [ ] , skewedColValues: [ ] , skewedColValueLocationMaps : | | ) , storedAs- 
SubDirectories ; false) , partitionKeys:[ ] , parameters: | | , viewOriginalText; null , viewExpandedText ; null , 
tableType: MANAGED. TABLE) 

15/04/05 07: 38: 08 INFOHiveMetaStore. audit; ugi = harliip = unknown - ip ~ addremd = create, table: 
Table( tableName ; src , dbName : default, owner; harli , createTime ; 1428244688 , lastAccessTime : 0 , reten- 
tion;O, sd; StorageDescriptor ( cols; [ FieldSchema ( name: key, type; int, comment; null ) , FieldSchema 
(name: value, type: string, comment; null) ] , location; null, inputFormat; org. apache. hadoop. mapred. Te- 
xtInputFormat, outputFormat: org. apache. hadoop. hive. ql. io. HivelgnoreKeyTextOutputFormat, com- 
pressed ; false , numBuckets; — 1 , serdeInfo ; SerDeInfo (name : null , serializationLib : org. apache. hadoop. hive. 
serde2. lazy. LazySimpleSerDe , parameters; | serialization. format = 1 | ) , bucketCols: [ ] , sortCols: [ ], 
parameters: | | , skewedInfo ; SkewedInfo ( skewedColNames: [ ] , skewedColValues: [ | , skewedColValue- 
LocationMaps | | ) , storedAsSubDirectories ; false ) , partitionKeys: [ ] , parameters; | | , viewOriginalText ; 
null , viewExpandedText ; null , tableType ; MANAGED. TABLE) 

15/04/05 07:38:08 INFO log. PerfLogger: </PERFLOG method = runTasks start = 1428244688102 end 
= 1428244688172 duration 2 70 from = org. apache. hadoop. hive. ql. Driver > 

15/04/05 07 : 38: 08 INFO log. PerfLogger; «/PERFLOG method = Driver. execute start = 
1428244688102 end = 1428244688172 duration 2 70 from = org. apache. hadoop. hive. ql. Driver > 
15/04/05 07:38:08 INFO ql. Driver; OK 

15/04/05 07:38:08 INFO log. PerfLogger: < PERFLOG method = releaseLocks from = org. apache. hadoop. 
hive. ql. Driver > 

15/04/05 07:38: 08 INFO log. PerfLogger: «/PERFLOG method = releaseLocks start = 1428244688172 
end = 1428244688172 duration =0 from = org. apache. hadoop. hive. ql. Driver > 

15/04/05 07: 38: 08 INFO log. PerfLogger: «/PERFLOG method = Driver. run start = 1428244688097 
end = 1428244688172 duration 275 from = org. apache. hadoop. hive. ql. Driver > 


res14 : org. apache. spark. sql. DataFrame = [ result; string ] 


这 是 构建 src 表 之 前 的 Web Interface 界面 ， 如 图 3.17 所 示 。 
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Name 
px_partition_test 
partition table 
partition test 


people 


系统 在 构建 sre 表 之 前 的 界面 


这 是 构建 sre 表 之 后 的 Web Interface 界面 ， 如 图 3.18 所 示 。 可 以 看 到 ，src 表 已 经 在 
warehouse 目录 下 构建 成 功 。 
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Spark 部 署 目录 下 。 
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2. 加 载 本 地 文件 到 表 中 
通过 HiveQL 的 LOAD 语句 “LOAD DATA LOCAL INPATH examples/src/main/resources/ 
kvl. xt INTO TABLE sre”， 将 本 地 文件 系统 中 的 kvl. txt 文件 加 载 到 sre 表 中 。 该 文件 位 于 


e Replication 


Block Size 


0B 


DB 


0B 


DB 


0B 


Go! 


FAR UTEM sre 表 之 后 的 界面 


scala > sqlContext. sql ( " LOAD DATA LOCAL INPATH examples/src/main/resources/kvl. txt INTO 


TABLE src" ) 


15/04/05 07: 38: 21 INFO parse. ParseDriver; Parsing command: LOAD DATA LOCAL INPATH exam- 
ples/src/ main/resources/kvl. txt INTO TABLE src 
15/04/05 07: 38: 21 INFO parse. ParseDriver; Parse Completed 
15/04/05 07: 38: 21 INFO log. PerfLogger: < PERFLOG method = Driver. run from = org. apache. hadoop. 
hive. ql. Driver > 
15/04/05 07:38:21 INFO log. PerfLogger; < PERFLOG method = TimeToSubmit from = org. apache. 
hadoop. hive. ql. Driver > 
15/04/05 07: 38: 21 INFO ql. Driver; Concurrency mode is disabled, not creating a lock manager 

15/04/05 07: 38: 21 INFO log. PerfLogger: < PERFLOG method = compile from = org. apache. hadoop. 


hive. ql. Driver > 
15/04/05 07 : 38 
org. apache. hadoop. hiv 


15/04/05 07: 38: 21 IN 


ples/src/ main/resource 


15/04/05 07: 38: 21 IN 
15/04/05 07: 38: 21 IN 


1428244701662. duratio 


15/04/05 07: 38:21 IN 


hadoop. hive. ql. Driver 


15/04/05 07: 38:21 IN 
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21 INFO 
e. ql. Driver > 
FO parse. ParseDriver; Parsing command; LOAD DATA LOCAL INPATH exam- 
s/kvl. txt INTO TABLE src 
FO parse. ParseDriver; Parse Completed 
FO log. PerfLogger: «/PERFLOG method = parse start = 1428244701661 end = 
n 21 from = org. apache. hadoop. hive. ql. Driver > 
FO log. PerfLogger; < PERFLOG method = semanticAnalyze from = org. apache. 
> 
FOmetastore. HiveMetaStore :0 :get_table:db = default tbl = src 


log. PerfLogger; < PERFLOG method = parse from = 


15/04/05 07: 38:21 INFOHiveMetaStore. audit: ugi = harliip = unknown - ip ~ addremd = get. table; db 


= default tbl = sre 


15/04/05 07: 38:21 IN 


15/04/05 07: 38: 2 


1428244701662 end =1 


FO ql. Driver:Semantic Analysis Completed 
1 INFO log. PerfLogger: «/PERFLOG method = semanticAnalyze start 
428244701794 duration = 132 from = org. apache. hadoop. hive. ql. Driver > 


15/04/05 07: 38: 21 INFO ql. Driver; Returning Hive schema; Schema ( fieldSchemas ; null, properties : 


null) 

15/04/05 07: 38: 21 IN 
= 1428244701794 dura 
15/04/05 07: 38: 21 IN 


FO log. PerfLogger; «/PERFLOG method = compile start = 1428244701661 end 
tion = 133 from = org. apache. hadoop. hive. ql. Driver > 
FO log. PerfLogger; < PERFLOG method = Driver. execute from = org. apache. 


hadoop. hive. ql. Driver > 
15/04/05 07: 38: 21 INFO ql. Driver:Starting command; LOAD DATA LOCAL INPATH examples/src/ 
main/resources/kvl. txt INTO TABLE src 

15/04/05 07: 38: 21 INFO log. PerfLogger; </PERFLOG method = TimeToSubmit start 
1428244701661 end = 1428244701794 duration = 133 from = org. apache. hadoop. hive. ql. Driver > 
15/04/05 07: 38: 21 INFO log. PerfLogger: < PERFLOG method = runTasks from = org. apache. hadoop. 
hive. ql. Driver > 

15/04/05 07: 38: 21 INFO log. PerfLogger: < PERFLOG method = task. COPY. Stage — 0 from = 
org. apache. hadoop. hive. ql. Driver » 

15/04/05 07: 38: 21 INFO exec. Task : Copying data from file ;/home/harli/cluster_13/spark/examples/ 
src/main/resources/kv1. txt to hdfs://cluster01 :9000/tmp/hive — harli/hive 2015 -04 —05. 07 -38 - 
21. 661. 2658555693652186087 — 1/ — ext — 10000 

15/04/05 07: 38: 21 INFO exec. Task; Copying file; file: /home/harli/cluster. 13/spark/examples/src/ 
main/ resources/kvl. txt 

15/04/05 07:38:21 INFO log. PerfLogger; < PERFLOG method = task. MOVE. Stage — 1 from = org. 
apache. hadoop. hive. ql. Driver » 

15/04/05 07: 38: 21 INFO exec. Task; Loading data to table default. sre fromhdfs ;//cluste101 ; 9000/ 
tmp/hive — harli/hive 2015 -04 —05 07 -38 -21 661. 2658555693652186087 — 1/ — ext — 10000 
15/04/05 07: 38: 21 INFOmetastore. HiveMetaStore :0 : get. table; db = default tbl = src 

15/04/05 07: 38: 21 INFOHiveMetaStore. audit; ugi = harliip = unknown - ip ~ addremd = get, table; db 
= default tbl = src 
15/04/05 07: 38: 22 INFOmetastore. HiveMetaStore :0 : get_table : db = default tbl = src 

15/04/05 07: 38: 22 INFOHiveMetaStore. audit; ugi = harliip = unknown - ip ~ addremd = get, table; db 
= default tbl = src 


15/04/05 07: 38: 22 IN 


FO metadata. Hive: Renaming src : hdfs: //cluster01: 9000/tmp/hive — harli/hive 


.2015 -04 - 05. 07 
cluster01 :9000/user/hi 
15/04/05 07: 38: 22 IN 


38 —21. 661. 26585556903652186087 — 1/ — ext — 10000/kv1. txt; dest; hdfs;// 


ve/warehouse/src/ kvl. txt ;Status ; true 
FOmetastore. HiveMetaStore :0 ; alter. table; db = default tbl = sre newtbl = sre 
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15/04/05 07: 38: 22 INFOHiveMetaStore. audit: ugi = harliip = unknown - ip ~ addremd = alter_table :db 

= default tbl = src newtbl = src 

15/04/05 07: 38: 22 INFOmetastore. HiveMetaStore :0 : get. table; db = default tbl = src 

15/04/05 07: 38: 22 INFOHiveMetaStore. audit; ugi = harliip = unknown - ip ~ addremd = get. table: db 

= default tbl = src © 
15/04/05 07: 38: 22 INFO hive. log: Updating table stats fast for src 

15/04/05 07: 38: 22 INFO hive. log: Updated size of table src to 5812 

15/04/05 07: 38: 22 INFO log. PerfLogger; < PERFLOG method = task. STATS. Stage - 2 from = 

org. apache. hadoop. hive. ql. Driver » 

15/04/05 07: 38: 22 INFO exec. StatsTask ; Executing stats task 

15/04/05 07: 38: 22 INFOmetastore. HiveMetaStore :0 : get. table; db = default tbl = src 

15/04/05 07: 38: 22 INFOHiveMetaStore. audit; ugi = harliip = unknown - ip ~ addremd = get, table; db 

= default tbl = src 
15/04/05 07: 38: 22 INFOmetastore. HiveMetaStore :0 : get. table; db = default tbl = src 

15/04/05 07: 38: 22 INFOHiveMetaStore. audit: ugi = harliip = unknown - ip ~ addremd = get. table; db 
= default tbl = src 
15/04/05 07: 38: 22 INFOmetastore. HiveMetaStore :0 : alter. table: db = default tbl = sre newtbl = src 
15/04/05 07: 38: 22 INFOHiveMetaStore. audit; ugi = harliip = unknown - ip ~ addremd = alter. table ; db 
= default tbl = sre newtbl = src 

15/04/05 07: 38: 22 INFOmetastore. HiveMetaStore :0 : get, table;db = default tbl = src 

15/04/05 07: 38: 22 INFOHiveMetaStore. audit; ugi = harliip = unknown - ip ~ addremd = get, table; db 
= default tbl = sre 
15/04/05 07: 38: 22 INFO hive. log: Updating table stats fast for src 

15/04/05 07: 38: 22 INFO hive. log: Updated size of table src to 5812 

15/04/05 07:38:22 INFO exec. Task; Table default. src stats; [ numFiles = 1 , numRows =0, totalSize = 
5812 ,rawDataSize =0 | 
15/04/05 07: 38: 22 INFO log. PerfLogger: </PERFLOG method = runTasks start = 1428244701795 end 
= 1428244702361 duration 2566 from = org. apache. hadoop. hive. ql. Driver > 

15/04/05 07 : 38: 22 INFO log. PerfLogger; </PERFLOG method = Driver. execute start = 
1428244701794 end = 1428244702361 duration = 567 from = org. apache. hadoop. hive. ql. Driver > 
15/04/05 07: 38: 22 INFO ql. Driver; OK 

15/04/05 07:38: 22 INFO log. PerfLogger; < PERFLOG method = releaseLocks from = org. apache. 
hadoop. hive. ql. Driver > 

15/04/05 07: 38: 22 INFO log. PerfLogger: </PERFLOG method = releaseLocks start = 1428244702361 
end = 1428244702361 duration = 0 from = org. apache. hadoop. hive. ql. Driver > 

15/04/05 07: 38: 22 INFO log. PerfLogger; «/PERFLOG method = Driver. run start = 1428244701661 
end = 1428244702361 duration = 700 from = org. apache. hadoop. hive. ql. Driver > 


res15 :org. apache. spark. sql. DataFrame = [ result; string | 


3. 查询 src 表 
从 src 表 中 查询 key 和 value 字段 。 


scala > sqlContext. sql( " FROM sre SELECT key, value" ) 

15/04/05 07: 46: 01 INFO parse. ParseDriver; Parsing command; FROM sre SELECT key, value 
15/04/05 07:46: 01 INFO parse. ParseDriver; Parse Completed 

15/04/05 07:46:01 INFOmetastore. HiveMetaStore :0 : get. table:db = default tbl = src 

15/04/05 07: 46:01 INFOHiveMetaStore. audit; ugi = harliip = unknown — ip ~ addremd = get. table; db = 
default tbl 2 src 


res17 : org. apache. spark. sql. DataFrame = [ key : int, value: string | 
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最 后 通过 HiveQL 的 查询 语句 “FROM sre SELECT key, value”, M sre 表 中 查询 指定 的 
key 和 value 两 列 数据 来 构建 出 DataFrame 实例 。 

4. 在 界面 输出 sre 表 的 查询 结 

获取 查询 结果 并 在 终端 显示 。 


scala > sqlContext. sql( " FROM sre SELECT key, value" ). collect( ). foreach( println) 

15/04/05 07: 38: 26 INFO parse. ParseDriver; Parsing command; FROM sre SELECT key, value 
15/04/05 07: 38: 26 INFO parse. ParseDriver; Parse Completed 

15/04/05 07: 38: 26 INFOmetastore. HiveMetaStore :0 : get. table:db = default tbl = src 

15/04/05 07: 38: 26 INFOHiveMetaStore. audit; ugi = harliip = unknown - ip ~ addremd = get. table; db = 
default tbl 2 src 

15/04/05 07:38: 27 INFOmapred. FileInputFormat : Total input paths to process :1 

[238 ,val 238] 
[ 86, val_86 | 
[311 val 311] 
[27 ,val 27] 
[165 ,val 165] 
[ 409 , val, 409] 
[255 ,val 255] 
[278 ,val 278] 


5. 删除 src 表 
使 用 drop table 删除 sre 表 。 


scala > sqlContext. sql( " DROP table src" ) 

15/04/05 08: 42: 04 INFO parse. ParseDriver; Parsing command: DROP table src 

15/04/05 08: 42: 04 INFO parse. ParseDriver; Parse Completed 

15/04/05 08: 42: 04 INFOmetastore. HiveMetaStore :0 : get. table:db = default tbl = src 

15/04/05 08: 42: 04 INFOHiveMetaStore. audit; ugi = harliip = unknown - ip ~ addremd = get. table; db = 
default tbl 2 src 
15/04/05 08: 42: 04 INFO log. PerfLogger; < PERFLOG method = Driver. run from = org. apache. 
hadoop. hive. ql. Driver > 
15/04/05 08: 42: 04 INFO log. PerfLogger; < PERFLOG method = TimeToSubmit from = org. apache. 
hadoop. hive. ql. Driver > 
15/04/05 08: 42: 04 INFO ql. Driver; Concurrency mode is disabled, not creating a lock manager 
15/04/05 08: 42: 04 INFO log. PerfLogger; < PERFLOG method = compile from = org. apache. hadoop. 
hive. ql. Driver > 
15/04/05 08: 42: 04 INFO log. PerfLogger; < PERFLOG method = parse from = org. apache. hadoop. 
hive. ql. Driver > 
15/04/05 08: 42: 04 INFO parse. ParseDriver; Parsing command; DROP TABLE src 

15/04/05 08: 42: 04 INFO parse. ParseDriver; Parse Completed 

15/04/05 08: 42: 04 INFO log. PerfLogger: «/PERFLOG method = parse start = 1428248524423 end = 
1428248524423 duration =0 from = org. apache. hadoop. hive. ql. Driver > 

15/04/05 08: 42: 04 INFO log. PerfLogger: < PERFLOG method = semanticAnalyze from = org. apache. 
hadoop. hive. ql. Driver > 
15/04/05 08: 42: 04 INFOmetastore. HiveMetaStore :0 : get. table:db = default tbl = src 

15/04/05 08: 42: 04 INFOHiveMetaStore. audit: ugi = harliip = unknown - ip — addremd = get_table: db = 
default tbl 2 src 
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15/04/05 08: 42: 04 INFO ql. Driver: Semantic Analysis Completed 

15/04/05 08 : 42: 04 INFO log. PerfLogger: «/PERFLOG method = semanticAnalyze start = 
1428248524423 end = 1428248524447 duration = 24 from = org. apache. hadoop. hive. ql. Driver > 
15/04/05 08: 42: 04 INFO ql. Driver; Returning Hive schema; Schema ( fieldSchemas : null , properties : 
null) 

15/04/05 08: 42: 04 INFO log. PerfLogger; «/PERFLOG method = compile start = 1428248524423 end 
= 1428248524448 duration = 25 from = org. apache. hadoop. hive. ql. Driver > 

15/04/05 08: 42: 04 INFO log. PerfLogger; < PERFLOG method = Driver. execute from = org. apache. 
hadoop. hive. ql. Driver > 

15/04/05 08: 42: 04 INFO ql. Driver:Starting command; DROP TABLE src 

15/04/05 08: 42: 04 INFO log. PerfLogger: < /PERFLOG method = TimeToSubmit start = 1428248524423 
end = 1428248524448 duration 225 from = org. apache. hadoop. hive. ql. Driver > 

15/04/05 08: 42: 04 INFO log. PerfLogger: < PERFLOG method = runTasks from = org. apache. hadoop. 
hive. ql. Driver > 

15/04/05 08: 42: 04 INFO log. PerfLogger: < PERFLOG method = task. DDL. Stage - O from = 
org. apache. hadoop. hive. ql. Driver » 

15/04/05 08: 42: 04 INFOmetastore. HiveMetaStore :0 : get. table:db = default tbl = src 

15/04/05 08: 42: 04 INFOHiveMetaStore. audit; ugi = harliip = unknown — ip ~ addremd = get. table; db = 
default tbl 2 src 
15/04/05 08: 42: 04 INFOmetastore. HiveMetaStore :0 : get, table:db = default tbl = src 

15/04/05 08: 42: 04 INFOHiveMetaStore. audit; ugi = harliip = unknown - ip ~ addremd = get. table; db = 
default tbl 2 src 
15/04/05 08: 42: 04 INFOmetastore. HiveMetaStore :0 : drop. table;db = default tbl = sre 

15/04/05 08: 42: 04 INFOHiveMetaStore. audit; ugi = harliip = unknown - ip ~ addremd = drop. table; db 
= default tbl = sre 
15/04/05 08: 42: 04 INFOmetastore. HiveMetaStore :0 : get, table:db = default tbl = src 

15/04/05 08: 42: 04 INFOHiveMetaStore. audit; ugi = harliip = unknown — ip ~ addremd = get. table; db = 
default tbl = src 
15/04/05 08: 42: 04 INFOmetastore. hivemetastoressimpl; deleting — hdfs: //cluster01 ; 9000/user/hive/ 
warehouse/src 
15/04/05 08: 42: 04 INFO fs. TrashPolicyDefault ; Namenode trash configuration ; Deletion interval = 0 mi- 
nutes , Emptier interval = 0 minutes. 

15/04/05 08: 42: 04 INFOmetastore. hivemetastoressimpl ; Deleted the diretoryhdfs: //cluster01: 9000/us- 
er/ hive/warehouse/ src 
15/04/05 08: 42: 04 INFO log. PerfLogger; </PERFLOG method = runTasks start = 1428248524448 end 
= 1428248524675 duration = 227 from = org. apache. hadoop. hive. ql. Driver > 

15/04/05 08 : 42: 04 INFO log. PerfLogger: «/PERFLOG method = Driver. execute start = 
1428248524448 end = 1428248524675 duration 2227 from = org. apache. hadoop. hive. ql. Driver > 
15/04/05 08: 42: 04 INFO ql. Driver; OK 

15/04/05 08: 42: 04 INFO log. PerfLogger: < PERFLOG method = releaseLocks from = org. apache. hadoop. 
hive. ql. Driver > 

15/04/05 08: 42: 04 INFO log. PerfLogger: </PERFLOG method = releaseLocks start = 1428248524675 
end = 1428248524675 duration =0 from = org. apache. hadoop. hive. ql. Driver > 

15/04/05 08: 42: 04 INFO log. PerfLogger; «/PERFLOG method = Driver. run start = 1428248524423 
end = 1428248524675 duration 2 252. from = org. apache. hadoop. hive. ql. Driver > 

res18 : org. apache. spark. sql. DataFrame = [ | 


日 志 中 包含 了 具体 执行 时 的 详细 信息 ， 比 如 HiveMetaStore 部 分 ， 包 含 了 当前 使 用 的 数 
据 库 ， 执 行 语句 和 表 名 等 信息 。 在 metastore. hivemetastoressimpl 部 分 还 包含 了 内 部 的 实现 细 


e 
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比如 由 于 Hive 表 不 是 外 部 表 ， 这 里 删除 表 的 同时 ， 也 删除 了 对 应 的 HDFS 存储 系统 上 
的 文件 。 其 他 日 志 信息 还 包含 执行 时 间 、 锁 操作 等 。 通 过 对 日 志 信息 的 分 析 ， 可 以 了 解 内 部 
的 执行 流程 和 细节 。 

此 时 查看 Web Interface 界面 ， 可 以 看 到 sre 表 已 经 被 删除 ， 如 图 3. 19 所 示 。 


Ge | @ cluster01:50070/explorer.html#/user/hive/warehouse/ ~ @ IB Googie a íi 


Hadoop 


Browse Directory 


/usershive/warehouse/ 
1 
Permission Owner Group Size Replication Block Size Name 
drwxr-xr-x harli supergroup 0B 0 0B px partition test 
drwxr-xr-x hari Supergroup 0B 0 0B partition table 
drwxr-xr-x harli supergroup 0B 0 0B partition test 
drwxr-xr-x hari supergroup 0B 0 o8 people 


图 3.19 Hadoop 文件 系统 在 删除 表 之 后 的 界面 


二 、 使 用 现 有 的 Hive 数据 仓库 

(一 ) 准备 工作 

1. 安装 好 mysql 数据 库 。 

2. 安装 好 Hive 环境 ， 当 前 Hive 环境 使 用 MySQL 作为 默认 的 元 数据 数据 库 。 

1) © mysql - connector — java —5. 1. 35 - bin. jar 复制 到 hive/lib 目录 下 。 

2) 已 用 Hive 的 jar 包 替 换 了 Hadoop 较 低 版 本 的 相同 jar £2: 用 hive/lib/jline - 2. 12. jar 


替换 share/hadoop/yarn/lib/jline - 0. 9. 94. jar ; 如 果 没 有 替换 ， 运 行 “. /bin/hive” 时 会 报 
jline 的 类 不 兼容 错误 。 


3) Æ hive -env. sh 中 按 实 际 集群 修改 下 面 三 个 属性 : 


# Set HADOOP_HOME to point to a specifichadoop install directory 
# HADOOP HOME =$ | bin} /. . 7. . /hadoop 

export HADOOP HOME = "/home/harli/cluster/hadoop"' 
export HIVE HOME = "/home/ harli/cluster/hive"' 

3t Hive Configuration Directory can be controlled by: 

# export HIVE CONF DIR = 

export HIVE CONF DIR = "/home/harli/cluster/hive/ conf" 


4) hive - site. xml 配置 示例 : 


<? xml - stylesheet type = " text/xsl" href =" configuration. xsl"? > 
< configuration > 

< property > 

« name > hive. metastore. local < /name > 

« value >true « /value > 

« / property > 

< property > 


« name > javax. jdo. option. ConnectionURL < /name > 
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< value > jdbc: mysql ;//192. 168. 70. 214:3306/hive? = createDatabaselfNotExist = true </value > 
« / property > 

< property > 

< name > javax. jdo. option. ConnectionDriverName < /name > 

< value > com. mysql. jdbc. Driver < /value > © 
< / property > 

< property > 

< name > javax. jdo. option. ConnectionUserName < /name > 

< value > root < /value > 

< / property > 

< property > 

< name > javax. jdo. option. ConnectionPassword « /name > 

< value > mysql < /value > 

« / property > 

« / configuration » 


其 中 ，javax. jdo. option. ConnectionURL 为 数据 库 连 接 的 URL 信息 ,根据 MySQL A 
体 安 装 设 置 。 当 前 连接 的 用 户 名 和 密码 为 root/mysql， 实 际 情况 下 最 好 不 要 使 用 root 


用 户 。 


在 此 主要 讲解 Spark SQL 的 案例 ， 因 此 只 介绍 最 基本 的 Hive 的 环境 配置 。 如 果 需 要 修 
改 ， 可 以 参考 Hive 官网 的 部 署 文 档 。 比 如 ， 可 以 增加 Hive 数据 库 的 编码 的 属性 设置 : 在 配 
置 javax. jdo. option. ConnectionURL 中 添加 “&amp ; characterEncoding = latin1 ”，metastore 的 
远程 访问 的 配置 中 为 hive. metastore. uris 设置 value 为 thrift: //cluster01: 9083 ， 等 等 。 其 中 ， 
character Encoding 设置 的 编码 为 latin/ 。 

注意 : ConnectionURL 参数 中 的 & 符号 在 XML 文件 中 需 转 义 。 了 驱动 类 比较 旧时 ， 比 如 mysql - connec- 
tor -java —5. 1. 6 — bin. jar， 在 执行 (比如 drop table) 语句 时 可 能 会 出 现 如 下 异常 : 


FAILED; Execution Error , return code 1 from org. apache. hadoop. hive. ql. exec. DDLTask. MetaException 
(message: javax. jdo. JDODataStoreException; You have an error in your SQL syntax; check the manual 
that corresponds to your MySQL server version for the right syntax to use neat OPTION SQL. SELECT —. 
LIMIT = DEFAULT at line 1 


这 是 由 于 MySQL 的 版 本 和 了 驱动 的 版 本 不 匹配 导致 的 ， 测 试 时 使 用 的 MySQL 版 本 是 5. 6, 
而 案例 使 用 的 驱动 是 mysql — connector - java — 5. 1.6 — bin. jar, H F MySQL 5.6 已 经 抛弃 了 
这 个 参数 ， 所 以 会 报 上 面 错 误 ， 这 里 换 成 最 新 的 驱动 mysql - connector - java — 5. 1.35 - 
bin. jar 后 问题 解决 。 

当前 MySQL 版 本 信息 如 下 : 


[ harli@ cluster01 hive]$mysql —V 
mysql Ver 14. 14 Distrib 5. 6. 23 ,for Linux (x86. 64) usingEditLine wrapper 


MySQL 驱动 的 下 载 地 址 : http: //dev. mysql. com/downloads/connector/j/ 
(二 ) 操作 Hive 表 的 案例 
在 Hive 中 启动 . /bin/hive 


[ harli@ cluster01 hive ] $. /bin/hive 
15/04/06 03:31:29 WARN conf. HiveConf; HiveConf of name hive. metastore. local does not exist 
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Logging initialized using configuration in file ;/home/harli/cluster_13/hive/conf/hive — log4j. properties 
SLF4J;Class path contains multiple SLF4J bindings. 

SLF4J:Found binding in [ jar: file:/home/harli/cluster _13/hadoop/share/hadoop/common/lib/ slf4j — 
log4j12 — 1. 7. 5. jar!/org/slfAj/impl/StaticLoggerBinder. class ] 

SLF4J:Found binding in [ jar; file:/home/harli/cluster _13/hive/lib/hive — jdbc — 1. 1. 0 — standa- 
lone. jar!!! /org/slfAj/impl/StaticLoggerBinder. class | 

SLF4J :See http://www. slfAj. org/codes. htmlitmultiple bindings for an explanation. 


SLFAJ ; Actual binding is of type [ org. slf4j. impl. Log4jLoggerFactory | 
hive > 


出 现 “hive > ”提示 后 ， 开 始 创建 一 个 表 . 


hive > show tables; 

OK 

Time taken:0. 701 seconds 

hive » CREATE TABLE pokes (foo INT,bar STRING) ; 
OK 

Time taken:0. 523 seconds 

hive » show tables; 

OK 

pokes 

Time taken :0. 036 seconds, Fetched :1 row( s) 


查看 Web Interface 界面 上 的 文件 系统 信息 ， 如 图 3. 20 所 示 。 


$e | cluster01:50070/explorer.htmldt/user/hive/warehouse v Bl Google a $ 


Browse Directory 


juserihive/warehouse 
[ 
Permission Owner Group Size Replication Block Size Name 
rwxr-xr-x harli supergroup 0B o oB 


Hadoop. 2014. 


图 3.20 Hadoop 文件 系统 在 Hive 的 cli 中 构建 表 之 后 的 界面 


可 以 看 到 ， 中 /user/hive/warehouse 这 个 默认 仓库 目录 下 ， 生 成 列 对 应 表 名 的 目录 
pokes。 

将 mysql - connector - java — 5. 1. 35 — bin. jar 路 径 添加 到 Spark CLASSPATH 下 ， 启 动 
Spark 脚本 ， 脚 本 内 容 如 下 : 


[ harli € cluster01 spark ] $ Spark_CLASSPATH =$ Spark _ CLASSPATH :/home/harli/cluster/hive/lib/ 
mysql - connector — java —5. 1. 35 — bin. jar . /bin/spark — shell —— master spark: //cluster01: 7077 
Spark assembly has been built with Hive, includingDatanucleus jars on classpath 

15/04/06 03: 38:21 WARN util. NativeCodeLoader; Unable to load native — hadoop library for your plat- 
form»; using builtin ~ java classes where applicable 

15/04/06 03: 38: 21 INFO spark. SecurityManager ; Changing view acls to; harli 

15/04/06 03: 38: 21 INFO spark. SecurityManager: Changing modify acls to; harli 
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15/04/06 03: 38: 21 INFO spark. SecurityManager:SecurityManager:authentication disabled; ui acls dis- 

abled; users with view permissions :Set( harli) ; users with modify permissions :Set( harli) 

15/04/06 03: 38: 21 INFO spark. HttpServer:Starting HTTP Server 

15/04/06 03: 38: 21 INFO server. Server:jetty — 8. y. z - SNAPSHOT 

15/04/06 03: 38: 21 INFO server. AbstractConnector ; Started SocketConnector@ 0. 0. 0. 0.40779 © 
15/04/06 03: 38: 21 INFO util. Utils ; Successfully started servicé HTTP class server on port 40779. 


Welcome to 


yo NI VASA 


eM MY abu 


/_/._/\_,////\_\ version 1. 3. 0 
ff 


在 交互 式 界面 中 查询 现 有 的 表 信 息 : 


scala > sqlContext. sql( " show tables" ). show 

15/04/06 03:57:47 INFOmetastore. HiveMetaStore :0 : get, tables:db = default pat =. * 

15/04/06 03:57:47 INFOHiveMetaStore. audit: ugi = harliip = unknown — ip — addremd = get, tables ; db 
= default pat =. * 

tableNameisTemporary 


pokes false 


已 经 可 以 查看 到 Hive 刚 创 建 的 表 。 
在 Spark SQL 中 创建 表 : 


scala > sqlContext. sql( " CREATE TABLE pokes_test (foo INT,bar STRING)" ) 


res0 : org. apache. spark. sql. DataFrame = [ result; string | 
在 Hive 中 查看 : 


hive > show tables; 

OK 

pokes 

pokes_test 

Time taken :0. 683 seconds, Fetched:2 row( s) 


注意 : 如 果 启 动 spark — shell 脚本 时 ， 没 有 将 mysql - connector - java — 5. 1. 35 — bin. jar 包 添 加 到 当前 
的 CLASS PATH 路 径 下 ， 在 加 载 类 时 会 找 不 到 类 导致 MySQL 的 数据 库 连 接 失败 ， 这 时 候 会 出 现 包含 以 下 信 
息 的 异常 提示 : 


at java. lang. reflect. Constructor. newInstance( Constructor. java :526 ) 

at org. apache. hadoop. hive. metastore. MetaStoreUtils. newInstance ( MetaStoreUtils. java; 1410) 

+++ 56 more 

Caused by; javax. jdo. JDOFatalInternalException ; Error creating transactional connection factory 
NestedThrowables ; 

java. lang. reflect. InvocationTargetException 

at org. datanucleus. api. jdo. NucleusJDOHelper. getJDOExceptionForNucleusException ( NucleusJDOHelp- 
er. java:587 ) 

at org. datanucleus. api. jdo. JDOPersistenceManagerFactory. freezeConfiguration ( JDOPersistenceManager- 


Factory. java; 788) 
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Caused by: org. datanucleus. store. rdbms. connectionpool. DatastoreDriverNotFoundException ; The speci- 
fied datastore driver ( " com. mysql. jdbc. Driver" ) was not found in the CLASSPATH. Please check your 
CLASSPATH specification , and the name of the driver. 


at org. datanucleus. store. rdbms. connectionpool. AbstractConnectionPoolFactory. loadDriver ( AbstractCon- 


nectionPoolFactory. java :58 ) 


其 中 , 第 一 个 Caused by 处 提示 连接 创建 失败 ,继续 往 下 查 可 以 看 到 驱动 类 
(com. mysql. jdbc. Driver) 找 不 到 的 异常 DatastoreDriverNotFoundException 。 

小 技巧 : 

1. 当日 志 出 现 Error 时 ,跟踪 其 调用 堆栈 信息 ， 查 找 关 键 字 为 Caused by， 可 能 其 中 一 个 
异常 堆栈 信息 中 会 出 现 多 个 Caused by， 而 最 下 方 的 Caused by， 也 就 是 最 早 抛 出 异常 的 地 
方 ， 往 往 就 是 错误 的 根源 ， 问 题 的 根源 才 是 解决 问题 的 出 发 点 。 

2. 类 找 不 到 的 根本 原因 ， 参 考 章 节 3. 3.5 使 用 JDBC 操作 其 他 数据 库 的 案例 与 解析 部 分 
的 故障 排除 的 内 容 ， 主 要 是 由 JVM 的 类 加 载 机 制导 致 的 。 如 果 在 当前 执行 环境 (需要 注意 
在 分 布 式 计算 框架 下 ， 是 对 应 真正 执行 的 节点 ， 与 提交 点 等 其 他 节点 的 环境 无 关 ) 下 的 
CLASSPATH 中 找 不 到 该 jar 包 ， 就 会 出 现 类 找 不 到 的 异常 。 

3. Spark 计算 框架 已 经 提供 了 自动 将 所 需 jar 包 添 加 到 执行 环境 的 CLASSPATH 上 了 ， 如 
果 执 行 环 境 本 身 没 有 部 署 该 jar 包 ， 就 可 以 充分 利用 Spark 的 -- jars 参数 来 自动 设置 。 

(=) 远程 访问 MetaStoreServer 的 案例 

修改 hive - site. xml 文件 ， 添 加 : 


« property > 

< name > hive. metastore. uris < /name > 

« value » thrift: //cluster01: 9083 « /value » 
« / property > 


远程 访问 MetaStoreServer 时 ， 需 在 服务 器 端 启动 MetaStoreServer， 客 户 端 利用 Thrift 协议 


通过 MetaStoreServer 来 访问 元 数据 库 。 当 没有 启动 MetaStoreServer 服务 时 ， 执 行 spark - shell 
会 出 现 如 下 错误 信息 : 


scala > sqlContext. tableNames 
15/04/11 03: 53: 01 WARNHiveConf: DEPRECATED; Configuration property hive. metastore. local no 
longer has any effect. Make sure to provide a valid value for hive. metastore. uris if you are connecting to 
a remote metastore. 
15/04/11 03: 53:01 WARNmetastore ; Failed to connect to the MetaStore Server: - 
15/04/11 03: 53:02 WARNmetastore ; Failed to connect to the MetaStore Server: - 
15/04/11 03: 53:03 WARNmetastore ; Failed to connect to the MetaStore Server: -- 
java. lang. RuntimeException ; java. lang. RuntimeException ; Unable to instantiate org. apache. hadoop. 
hive. metastore. HiveMetaStoreClient 

at org. apache. hadoop. hive. ql. session. SessionState. start ( SessionState. java :346 ) 

at 
Caused by: java. lang. RuntimeException ; Unable to instantiate org. apache. hadoop. hive. metastore. Hive- 
MetaStoreClient 
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at org. apache. hadoop. hive. metastore. MetaStoreUtils. newInstance( MetaStoreUtils. java:1412 ) 


at org. apache. hadoop. hive. metastore. RetryingMetaStoreClient. < init > ( RetryingMetaStoreClient. 
java:62) 
at org. apache. hadoop. hive. metastore. RetryingMetaStoreClient. getProxy ( RetryingMetaStoreClient. 
java:72) C» 
at org. apache. hadoop. hive. ql. metadata. Hive. createMetaStoreClient( Hive. java :2453 ) 
at org. apache. hadoop. hive. ql. metadata. Hive. getMSC( Hive. java:2465) 
at org. apache. hadoop. hive. ql. session. SessionState. start ( SessionState. java :340 ) 
56 more 


Caused by : java. lang. reflect. InvocationTargetException 


at sun. 


at 


reflect. NativeConstructorAccessorImpl. newInstance0 ( Native Method ) 


Caused by: MetaException ( message: Could not connect to meta store using any of the URIs provided. 


Most recent failure; org. apache. thrift. transport. TTransportException; java. net. ConnectException; Con- 


nection refused 


at org. 


apache. thrift. transport. TSocket. open( TSocket. java:185) 


Caused by: java. net. ConnectException : Connection refused 


at java. 
at java. 
at java. 
at java. 
at Java. 


at java. 


at org. 


net. PlainSocketImpl. socketConnect( Native Method ) 

net. AbstractPlainSocketImpl. doConnect( AbstractPlainSocketImpl. java :339 ) 

net. AbstractPlainSocketImpl. connectToAddress ( AbstractPlainSocketImpl. java :200 ) 
net. AbstractPlainSocketImpl. connect ( AbstractPlainSocketImpl. java:182 ) 

net. SocksSocketImpl. connect( SocksSocketImpl. java :392 ) 

net. Socket. connect( Socket. java ;579) 

apache. thrift. transport. TSocket. open( TSocket. java; 180) 


+++ 68 more 


at org. 


apache. hadoop. hive. metastore. HiveMetaStoreClient. open ( HiveMetaStoreClient. java ;382 ) 


at org. apache. hadoop. hive. metastore. HiveMetaStoreClient. « init » ( HiveMetaStoreClient. java: 


214) 


… 66 more 


由 于 连接 请 求 被 拒绝 导致 HiveMetaStoreClient 实例 化 失败 ， 因 此 需要 先 启 动 远 程 的 
MetaStoreServer 服务 ， 启 动 代码 如 下 . 


#!/usr/bin/env bash 
nohup . /bin/hive —- service metastore >> metastore. log 2 > &1 & 


echo$! > hive — metastore. pid 


这 里 以 后 台 进 
行 spark -shell 后 ， 


程 方式 启动 metastore， 同 时 保存 进程 ID 到 指定 文件 中 。 局 动 后 ， 再 次 执 
运行 命令 访问 Hive 的 metastore 信息 就 可 以 正常 执行 了 : 


scala > sqlContext. tableNames 
15/04/11 04: 02: 44 WARNHiveConf; DEPRECATED; Configuration property hive. metastore. local no 


longer has any effect. Make sure to provide a valid value for hive. metastore. uris if you are connecting to 


a remote metastore. 


res0 ; Array | String] = Array( pokes , pokes, test ) 
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三 、 扩 展 用 户 定 义 函 数 场景 下 的 实践 案例 与 解析 

在 Spark 1. 3 版 本 中 ， 在 DataFrame 领域 特定 语言 (DSL) 或 SQL 中 使 用 的 UDF， 其 注册 操 
作 被 移 到 了 SQLContext 中 。 下 面 给 出 UDF 注册 实例 ， 并 基于 该 UDF 的 定义 ， 给 出 DataFrame 和 
SQL 中 的 两 种 案例 。 

以 下 的 数据 准备 和 之 前 的 案例 是 一 样 的 : 


scala > case class People( name:String,age:Int) 

defined class People 

scala > valrdd = sc. textFile(" /user/harli/people. txt" ). map(_. split(" ,") ). map(p => People(p(0) , 
p(1). trim. toInt) ) 

rdd :org. apache. spark. rdd. RDD[ People] = MapPartitionsRDD[30] at map at < console > :25 

scala > val people = rdd. toDF( ) 

people : org. apache. spark. sql. DataFrame = [ name :String ,age :int | 


scala > people. registerTempTable ( " people" ) 


其 中 people. txt 是 Spark 提供 的 部 署 目录 中 的 resources 子 目录 下 的 文件 。 
注册 名 为 strLen 和 fmtNum 的 两 个 UDF: 


// 构 建 求 字符 串 长 度 的 UDF 
scala > sqlContext. udf register( " strLen" ,(s:String) => s. length( ) ) 


res16 : org. apache. spark. sql. UserDefinedFunction = UserDefinedFunction( < function! > ,IntegerType) 
// 构 建 对 列 进行 格式 化 的 UDF 


scala > import java. text. DecimalFormat 


import java. text. DecimalFormat 
scala > sqlContext. udf. register( " fmtNum" , (d;Int) => | 
| valdfmt = new DecimalFormat ( " ###. 00" ) 
| dfmt. format( d. toDouble) | ) 
resl1 : org. apache. spark. sql. UserDefinedFunction = UserDefinedFunction( < function! > ,StringType) 


注册 的 strLen 的 函数 功能 为 将 传人 的 字符 串 转 换 为 字符 串 的 长 度 ，fmtNum 对 Int 型 的 
age 进行 格式 化 。 
在 SQL 中 的 使 用 案例 如 下 : 


scala > valudfRslt = sqlContext sql( " SELECT name, age FROM people WHERE strLen( name) <= 13 
AND age «2 32" ). show 


name age 
Michael 29 
Andy 30 
Justin 19 


udfRslt ; Unit = ( ) 


在 DataFrame 中 的 UDF 使 用 案例 如 下 : 


scala > people. selectExpr( " strlen( name)" ," age" ). toDF( " nameLen" ," age" ). show 


nameLen age 


7 29 
4 30 
6 19 


scala » people. selectExpr( " strlen( name) as nameLen" ," age" ). show 
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nameLen age 


7 29 

4 30 

6 19 | 
scala > people. selectExpr( " strlen( name) as nameLen" ," age" ). printSchema S 
root 


| —- nameLen: integer (nullable = true) 
| —- age;integer (nullable = false) 
scala > people. selectExpr( " strlen( name) as nameLen" ," fmtNum( age)" ). show 


nameLer! fmtNum( age) 


7 29. 00 
4 30. 00 
6 19. 00 


scala > people. selectExpr( " strlen( name) as nameLen" ," fmtNum( age)" ). printSchema 
root 
| —— nameLen integer (nullable = true) 


| = fmtNum( age) :string (nullable = true) 


这 里 使 用 注册 的 strlen 这 个 UDF 后 ， 返 回 的 DataFrame 的 schema 也 会 自动 进行 推导 。 对 
应 的 fmtNum 函数 被 调用 后 age 字段 也 自动 推导 为 String 类 型 。 


“于 使 用 JDBC 操作 其 他 数据 库 的 案例 与 解析 


Spark SQL 还 可 以 从 其 他 数据 库 使 用 JDBC 读 取 数据 。 这 个 功能 应 该 优先 于 使 用 jdb- 
cRDD。 因 为 它 可 以 直接 返回 DataFrame， 方 便 在 Spark SQL 进行 处 理 ， 也 可 以 很 容易 地 和 其 
他 数据 源 进行 join 操作 。jJava 或 Python 也 很 容易 使 用 JDBC 数据 源 ， 因 为 它 不 需要 用 户 提 供 
ClassTag。 注 意 ， 这 和 使 用 Spark JDBC SQL 服务 器 是 不 同 的 ，Spark JDBC SQL 服务 器 允许 其 
他 应 用 程序 使 用 Spark SQL 进行 查询 。 

在 案例 操作 开始 前 需要 将 对 应 数据 库 的 JDBC 驱动 添加 到 Spark 的 CLASSPATH E, FE 
如 ， 在 Spark Shell 上 连接 postgres 数据 库 时 ， 需 要 使 用 下 面 的 命令 : 


Spark_CLASSPATH = postgresql -9.3 -1102 - jdbc41. jar bin/spark - shell 


为 了 解决 提交 应 用 时 ， 经 常 出 现 的 在 Executor 上 找 不 到 驱动 包 的 问题 ， 下 面 给 出 两 种 情 
况 下 的 案例 与 分 析 。 通 过 两 种 案例 解析 ， 可 以 熟悉 不 同 场景 下 如 何 使 用 提交 应 用 的 参数 
选项 。 
一 、 集 群 中 所 有 集群 部 署 相同 ， 并 在 集群 上 的 某 一 节点 启动 Driver Program 
这 种 场景 下 ， 所 有 节点 上 都 部 署 了 Spark 、Hive， 部 署 路 径 也 相同 ， 而 且 驱 动 类 在 Hive 
的 lb 目录 下 。 这 时 候 可 以 将 Hive 的 lb 目录 下 的 驱动 jar 包 添 加 到 Spark CLASSPATH "F, 
添加 时 使 用 绝对 路 径 ， 因 此 在 每 个 节点 上 的 CLASSPATH 上 都 能 在 该 绝对 路 径 下 找到 驱 
动 类 。 
当前 案例 以 MySQL 数据 库 为 例 ， 对 应 的 命令 为 : 
Spark, CLASSPATH =$ Spark _ CLASSPATH ;/home/harli/cluster/hive/lib/mysql — connector - java — 
5. 1.35 — bin. jar . /bin/spark — shell 
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首先 ， 登 录 MySQL 客户 端 ， 查 看 当前 Hive 数据 库 下 的 表 : 


[ harli@ cluster01 spark] $mysql — uroot — pmysql 

Warning: Using a password on the command line interface can be insecure. 
Welcome to the MySQL monitor. Commands endwith ; or Vg. 

Your MySQL connection id is 12 

Server version :5. 6. 23 MySQL Community Server (GPL) 

Copyright (c) 2000,2015 , Oracle and/or its affiliates. All rights reserved. 
Oracle is a registered trademark of Oracle Corporation and/or its 

affiliates. Other names may be trademarks of their respective 

owners. 

Type help; of \ for help. Type \ċ to clear the current input statement. 
mysql > use hive 

Reading table information for completion of table and column names 

You can turn off this feature to get a quicker startup with — A 

Database changed 

mysql > show tables ; 

+ + 


Tables_in_hive | 

+ + 
BUCKETING_COLS | 
CDS | 
COLUMNS V2 | 
DATABASE_PARAMS | 
DBS | 
FUNCS | 
FUNC_RU | 
GLOBAL_PRIVS | 
PARTITIONS | 
PARTITION_KEYS | 
PARTITION_KEY_VALS | 
PARTITION_PARAMS | 
PART_COL_STATS | 
ROLES | 
SDS | 
SD_PARAMS | 
SEQUENCE_TABLE | 
SERDES | 
SERDE_PARAMS | 
SKEWED_COL_NAMES | 
SKEWED COL VALUE LOC MAP | 
SKEWED. STRING. LIST | 
SKEWED STRING LIST VALUES | 
SKEWED. VALUES | 
SORT_COLS | 
TABLE_PARAMS | 
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| TAB_COL_STATS | 
| TBLS | 
| VERSION | 


29 rows in set (0. 00 sec) © 


启动 spark - shell; 


Spark _CLASSPATH =$ Spark _ CLASSPATH ;/home/ harli/cluster/hive/lib/mysql — connector — java — 
5. 1. 35 - bin. jar . /bin/spark - shell —— master spark: //cluste101: 7077 


加 载 JDBC 数据 库 Hive 中 的 TBLS X, 


scala > valjdbcDF = sqlContext. load("jdbc" , Map( 

| "url" -> "jdbc : mysql: //192. 168. 242. 131 :3306/hive? user = root&password = mysql" , 

| | "dbtable" ->"TBLS'" ) ) 
jdbcDF; org. apache. spark. sql. DataFrame = [ TBL. ID:bigint, CREATE_TIME: int, DB_ID; bigint , LAST_ 
ACCESS TIME:int, OWNER; string, RETENTION : int, SD. ID: bigint, TBL. NAME : string, TBL. TYPE: 
string, VIEW. EXPANDED, TEXT string, VIEW ORIGINAL TEXT: string | 


将 jdbeDF 注册 为 临时 表 : 


scala > jdbcDF. registerTempTable( " table" ) 

scala > sqlContext. s 

setConfsparkContextsql 

scala > sqlContext. sql( " select * from table" ) 

15/04/06 06: 15:31 WARN conf. HiveConf; DEPRECATED ; Configuration property hive. metastore. local 
no longer has any effect. Make sure to provide a valid value for hive. metastore. uris if you are connecting 
to a remote metastore. 

15/04/06 06: 15: 31 INFO parse. ParseDriver; Parsing command :select * from table 

15/04/06 06: 15: 32 INFO parse. ParseDriver; Parse Completed 

res] :org. apache. spark. sql. DataFrame = [ TBL. ID: bigint, CREATE. TIME: int, DB. ID: bigint, LAST _ 
ACCESS TIME : int, OWNER; string, RETENTION: int, SD. ID: bigint, TBL. NAME:string, TBL. TYPE: 
string, VIEW. EXPANDED TEXT : string, VIEW ORIGINAL TEXT : string ] 


使 用 数据 源 API， 可 以 将 远程 数据 库 的 表 装 载 成 一 个 DataFrame 或 Spark SQL 的 临时 表 。 
数据 源 API 支持 的 选项 如 表 3. 3 所 示 。 


表 3.3 数据 源 API 支持 的 选项 


属 性 名 A x 
url 要 连接 的 JDBC URL 
dbtable JDBC 的 表 ， 应 该 是 可 读 的 。 注 意 ， 任 何 一 个 有 效 的 SQL 查询 中 的 “FROM” 子 名 
都 是 可 以 使 用 的 。 比 如 ， 不 使 用 整个 表 ， 而 使 用 括号 中 的 子 查询 语句 
连接 到 URL 时 需要 JDBC 驱动 程序 的 类 名 。 在 运行 一 条 JDBC 命令 让 驱动 器 注册 到 
JDBC 子 系 统 之 前 ，master 和 workers 都 需要 先 加 载 该 类 


如 果 需 要 指定 这 些 选 项 ， 就 必须 同时 全 部 指定 。 它 们 描述 列 在 并 行 地 从 多 个 worker 
上 读 取 数 据 时 如 何 对 表 进 行 分 区 。 其 中 ， 对 表 进 行 查 询 时 的 partitionColumn 必须 是 一 
个 数值 型 的 列 


partitionColumn, lowerBound, 


upperBound, numPartitions 
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二 、 在 集群 上 的 某 一 节点 启动 Driver Program 

这 种 场景 需要 保证 两 点 ， 一 是 Driver program 能 找到 驱动 类 , 二 是 执行 任务 的 Exec- 
utor 能 找到 驱动 类 。 

使 用 第 一 种 情况 时 ， 用 JDBC 表 作 为 测试 表 。 

1. 启动 spark — shell 


[ harli@ cluster01 spark ] $. /bin/spark — shell —— master spark: //cluster01: 7077 — — driver - class — 
path . . /hive/lib/mysql ~ connector ~ java — 5. 1. 35 - bin. jar jars . . /hive/lib/mysql — connector — 


java — 5. 1. 35 - bin. jar 


命 WEB 令 参 数 说 明 : 

1) 通过 - - driver - class - path 选项 ， 将 driver program 所 在 节点 的 Menus - 到 
CLASSPATH 中 ; 由 于 此 时 默认 以 Client pes 提交 ， 因 此 Driver Program 在 提交 节点 运 
行 ， 所 以 这 里 可 以 使 用 相对 路 径 。 

2) 通过 --jars 选项 ， 将 Executor 需要 使 用 的 jar GE, 由 于 上 传 的 jar 包 会 自动 添加 
到 执行 点 的 CLASSPATH， 因 此 Executor 执行 时 是 可 以 识别 的 ， 不 需要 再 手动 添加 到 CLASS- 
PATH 上 。 这 里 也 是 把 本 地 的 驱动 jar 包 作 为 --jars 参数 。 

注意 : 上传 的 jar 包 在 执行 时 会 自动 下 载 。 

2. 加 载 JDBC 表 


scala > val jdbcDF = sqlContext. load( " jdbc" , Map( 

| "url" -> "jdbc : mysql: //192. 168. 242. 131 :3306/hive? user = root&password = mysql" , 

| | "dbtable" ->"TBLS" ) ) 
15/04/07 08: 55: 50 WARN conf. HiveConf; DEPRECATED ; Configuration property hive. metastore. local 
no longer has any effect. Make sure to provide a valid value for hive. metastore. uris if you are connecting 
to a remote metastore. 
15/04/07 08: 55: 52 INFO metastore. HiveMetaStore;0; Opening raw store with implemenation class: 
org. apache. hadoop. hive. metastore. ObjectStore 
15/04/07 08: 55: 52 INFO metastore. ObjectStore : ObjectStore , initialize called 
15/04/07 08: 55: 52 WARN DataNucleus. General; Plugin (Bundle) "org. datanucleus. store. rdbms" is 
already registered. Ensure you dont have multiple JAR versions of the same plugin in the classpath. The 
URL " file;/home/harli/cluster/spark/lib/datanucleus — rdbms - 3. 2. 9. jar" is already registered, and 
you are trying to register an identical plugin located at URL " file ;/home/harli/cluster_13/spark/lib/da- 
tanucleus — rdbms — 3. 2. 9. jar. " 
15/04/07 08: 55: 52 WARN DataNucleus. General; Plugin ( Bundle) "org. datanucleus" is already regis- 
tered. Ensure you dont have multiple JAR versions of the same plugin in the classpath. The URL "file:/ 
home/harli/cluster_13/spark/lib/datanucleus — core — 3. 2. 10. jar" is already registered , and you are try- 
ing to register an identical plugin located at URL " file: /home/harli/cluster/spark/lib/datanucleus - core 
—3.2. 10. jar. " 
15/04/07 08: 55: 52 WARN DataNucleus. General; Plugin ( Bundle) " org. datanucleus. api. jdo" is al- 
ready registered. Ensure you dont have multiple JAR versions of the same plugin in the classpath. The 
URL " file;/home/harli/cluster/spark/lib/datanucleus — api — jdo —3. 2. 6. jar" is already registered , and 
you are trying to register an identical plugin located at URL " file;/home/harli/cluster. 13/spark/lib/da- 
tanucleus — api — jdo — 3. 2. 6. jar. " 
15/04/07 08: 55: 52 INFO DataNucleus. Persistence; Property datanucleus. cache. level2 unknown — will 


be ignored 


3; 
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15/04/07 08: 55: 52 INFO DataNucleus. Persistence : Property hive. metastore. integral. jdo. pushdown un- 


known — will be ignored 
15/04/07 08:55:53 WARN DataNucleus. Connection; BoneCP specified but not present in CLASSPATH 


(or one of dependencie 


s) 


15/04/07 08:55:53 WARN DataNucleus. Connection; BoneCP specified but not present in CLASSPATH S 


(or one of dependencie 


s) 


15/04/07 08:55:53 WARN conf. HiveConf; DEPRECATED ; Configuration property hive. metastore. local 


no longer has any effect. Make sure to provide a valid value for hive. metastore. uris if you are connecting 


to a remote metastore. 


15/04/07 08: 55: 53 INFO metastore. ObjectStore ; Setting MetaStore object pin classes with hive. metastore. 


cache. pinobjtypes = " Table , StorageDescriptor , SerDelnfo , Partition , Database , Type , FieldSchema , Order" 
15/04/07 08: 55: 56 INFO DataNucleus. Datastore ; The class "org. apache. hadoop. hive. metastore. model. 


MOrder" is tagged as 


MOrder" is tagged as 


MFieldSchema" is tagged as 
15/04/07 08: 55: 56 INFO DataNucleus. Datastore ; The class "org. apache. hadoop. hive. metastore. model. 


"embedded — only" so does not have its own datastore table. 


embedded - only" so does not have its own datastore table. 


15/04/07 08: 55: 56 INFO DataNucleus. Datastore ; The class "org. apache. hadoop. hive. metastore. model. 
MFieldSchema" is tagged as " embedded — only" so does not have its own datastore table. 
15/04/07 08: 55: 56 INFO DataNucleus. Datastore ; The class "org. apache. hadoop. hive. metastore. model. 


embedded — only" so does not have its own datastore table. 


15/04/07 08: 55: 56 INFO DataNucleus. Query ; Reading in results for query "org. datanucleus. store. rdbms. 
query. SQLQuery 0" since the connection used is closing 

15/04/07 08: 55: 56 INFO metastore. ObjectStore ; Initialized ObjectStore 

15/04/07 08: 55: 57 INFO metastore. HiveMetaStore; Added admin role in metastore 

15/04/07 08: 55: 57 INFO metastore. HiveMetaStore ; Added public role in metastore 


15/04/07 08: 55:57 I 
empty 


NFO metastore. HiveMetaStore: No user is added in admin role, since config is 


15/04/07 08: 55: 58 INFO session. SessionState; No Tez session required at this point. hive. execution. 


engine = mr. 


15/04/07 08: 55: 59 INFO session. SessionState; No Tez session required at this point. hive. execution. 


engine = mr. 


jdbcDF : org. apache. spark. sql. DataFrame = [ TBL. ID:bigint, CREATE, TIME:int, DB. ID:bigint, LAST_ 
ACCESS TIME:int, OWNER; string, RETENTION; int, SD. ID: bigint, TBL. NAME : string, TBL. TYPE: 


string, VIEW. EXPAND 


示 JDBC 表 的 内 容 


< 


scala > jdbcDF. show 


ED TEXT:string, VIEW ORIGINAL TEXT:string] 


o 


15/04/07 08: 56: 06 INFO spark. SparkContext : Starting job :runJob at SparkPlan. scala:121 
15/04/07 08: 56: 06 INFO scheduler. DAGScheduler:Got job O ( runJob at SparkPlan. scala:121) with 1 


output partitions ( allow 


Local = false ) 


15/04/07 08: 56: 06 INFO scheduler. DAGScheduler:; Final stage: Stage 0 ( runJob at SparkPlan. scala; 


121) 


15/04/07 08: 56: 06 INFO scheduler. DAGScheduler; Parents of final stage ; List( ) 
15/04/07 08: 56: 06 INFO scheduler. DAGScheduler: Missing parents ; List( ) 
15/04/07 08: 56: 06 INFO scheduler. DAGScheduler ; Submitting Stage 0 ( MapPartitionsRDD[1/] at map 


at SparkPlan. scala :96 ) 


, which has no missing parents 


15/04/07 08: 56: 06 INFO storage. MemoryStore : ensureFreeSpace (4560) called with curMem = 0, max- 


Mem = 280248975 


15/04/07 08: 56: 06 INFO storage. MemoryStore: Block broadcast_0 stored as values in memory ( esti- 
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mated size 4. 5 KB ,free 267. 3 MB) 

15/04/07 08: 56: 06 INFO storage. MemoryStore ; ensureFreeSpace (2845) called with curMem = 4560, 
maxMem - 280248975 

15/04/07 08: 56: 06 INFO storage. MemoryStore: Block broadcast O0. piece0 stored as bytes in memory 
(estimated size 2. 8 KB, free 267. 3 MB) 

15/04/07 08: 56: 06 INFO storage. BlockManagerInfo: Added broadcast, 0, piece0 in memory on clus- 
te101 :49747 ( size;2. 8 KB,free;267. 3 MB) 

15/04/07 08: 56: 06 INFO storage. BlockManagerMaster ; Updated info of block broadcast, 0. pieceO 
15/04/07 08: 56: 06 INFO spark. SparkContext : Created broadcast 0 from broadcast at DAGScheduler. 
scala;839 
15/04/07 08: 56: 06 INFO scheduler. DAGScheduler ; Submitting 1 missing tasks from Stage 0 ( MapParti- 
tionsRDD[ 1] at map at SparkPlan. scala ;96) 

15/04/07 08: 56: 06 INFO scheduler. TaskSchedulerImpl : Adding task set 0. O with 1 tasks 

15/04/07 08: 56: 07 INFO scheduler. TaskSetManager : Starting task 0.0 in stage 0.0 (TID 0,cluster01, 
PROCESS LOCAL,1140 bytes) 

15/04/07 08: 56: 09 INFO storage. BlockManagerInfo; Added broadcast, 0. piece0 in memory on clus- 
tel01 49666 (size:2. 8 KB, free:267. 3 MB) 

15/04/07 08: 56: 11 INFO scheduler. TaskSetManager: Finished task 0.0 in stage 0.0 (TID 0) in 4099 
ms on cluster01 (1/1) 
15/04/07 08: 56: 11 INFO scheduler. DAGScheduler:Stage 0 (runJob at SparkPlan. scala:121) finished 
in 4. 108 s 
15/04/07 08: 56: 11 INFO scheduler. DAGScheduler: Job O finished :runJob at SparkPlan. scala; 121 , took 
4. 438742 s 

15/04/07 08: 56: 11 INFO scheduler. TaskSchedulerlmpl ; Removed TaskSet 0. 0, whose tasks have all 
completed ,from pool 


TBL ID CREATE TIME DB. ID LAST. ACCESS. TIME OWNER RETENTION SD. ID TBL. NAME 


TBL TYPE VIEW EXPANDED TEXT VIEW ORIGINAL TEXT 
1 1428316407 1 0 harli 0 1 pokes MANAGED_TABLE null 
null 
6 1428320130 1 0 harli 0 6 pokes_test MANAGED_TABLE null 
null 


注意 : 这 里 使 用 spark — shell, Xi 4 Client 部 署 模式 ， 如 果 使 用 spark - submit 方式 提交 Spark 应 用 
程序 的 话 ， 可 以 使 用 Cluster 部 署 模式 ， 这 时 候 ，Driver Program 4 Master (Standalone 集群 ) 或 Resource- 
Manager (Spark on YARN) 负责 调度 ， 此 时 ， 可 以 去 掉 针 对 本 地 Driver Program 的 CLASSPATH 设置 ， 即 去 
掉 --driver-class -path 选项 ，--jars 上 传 的 驱动 类 也 会 自动 添加 到 实际 运行 节点 上 的 Driver Program 的 
CLASSPATH 中 。 

AL, --jass 会 随 着 应 用 上 传 ， 如 果 这 种 应 用 场景 比较 常用 的 话 ， 建 议 使 用 配置 属性 ， 
将 驱动 类 的 jar 包 部 署 到 集群 节点 中 。 相 关 配 置 属 性 可 以 参考 章节 2. 1. 2 应 用 程序 的 部 署 方 
式 部 分 的 提交 脚本 参数 说 明 。 

三 、 故 障 排 除 

当 执 行 Spark 应 用 程序 时 ， 如 果 出 现 ClassNotFounded Connect 建立 失败 ， 或 者 出 现 
SQL 语句 解析 异常 等 情况 时 ， 可 以 从 以 下 两 点 进行 故障 排除 : 

1. JDBC 驱动 程序 类 对 在 客户 端 会 话 和 所 有 的 Executors 的 初始 类 加 载 器 必须 是 可 见 的 。 
这 是 因为 Java 的 DriverManager 类 进行 安全 检查 ， 导 致 当 建 立 一 个 连接 时 ， 会 忽视 所 有 对 初 
始 类 加 载 需 不 可 见 的 驱动 类 。 一 个 方法 是 修改 所 有 worker 节点 上 的 compute_classpath. sh, 
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让 其 包含 驱动 jar 包 。 
在 包含 驱动 jar 包 时 ， 需 要 注意 jar 包 设置 的 路 径 应 该 为 全 路 径 。 
比如 ， 在 Spark CLASSPATH 中 添加 jar 包 依赖 时 ， 必 须 使 用 实际 执行 时 所 在 的 路 径 ， 如 
果 路 径 设置 错误 ， 会 导致 驱动 查找 失败 而 异常 。 蜡 常 信息 可 能 包含 以 下 内 容 : © 
15/04/06 23: 54: 57 INFO scheduler. DAGScheduler: Job 0 failed; runJob at SparkPlan. scala: 121 , took 
2. 265197 s 
org. apache. spark. SparkException: Job aborted due to stage failure; Task O in stage 0.0 failed 4 times, 
most recent failure; Lost task 0.3 in stage 0.0 (TID 3, cluster01 ) : java. sql. SQLException; No suitable 
driver found for jdbc; mysql: //192. 168. 242. 131: 3306/hive? user = root&password = mysql 
at java. sql. DriverManager. getConnection ( DriverManager. java :596 ) 


at java. sql. DriverManager. getConnection ( DriverManager. java:233 ) 


2. 一 些 数据 库 ， 如 H2 ， 会 将 所 有 名 称 转换 为 大 写 。 在 Spark SQL 中 ， 需 要 使 用 大 写 来 
引用 那些 名 字 。 


集成 Hive 数据 仓库 的 案例 与 解析 D 


一 般 情况 下 ， 各 个 公司 都 会 建立 自己 的 数据 仓库 ， 尤 其 是 当前 大 数据 生态 圈 中 使 用 最 普 
HAY Hive 数据 仓库 ， 需 要 集成 这 部 分 数据 ， 向 外 提供 这 部 分 数据 的 查询 接口 。Spark SQL ë 
供 了 分 布 式 SQL 引擎 SERA BATT SQL 查询 的 接口 ， 不 用 写 任何 代码 。 

运行 的 集群 环境 说 明 : 在 新 建 的 集群 上 运行 ， 部 署 的 Spark 版 本 和 Hadoop 版 本 和 之 前 
的 集群 一 样 ， 并 添加 了 Hive 环境 ，Hive 版 本 为 apache - hive -1.1.0， 对 应 数据 库 的 驱动 jar 
包 为 : mysql - connector — java —5. 1. 35. tar. gz, 

一 、Thrift JDBC/ODBC 的 案例 与 解析 

Spark SQL 提供 Thrift JDBC/ODBC LFF, ix H 3:385 Thrift JDBC/ODBC 服务 器 与 Hive 
0. 13 中 的 HiveServer2 4H— 2, nf VANE Spark 或 者 Hive 0. 13 附带 的 beeline 脚本 测试 JDBC 
服务 器 。 

下 面 给 出 两 种 方式 启动 JDBC/ODBC 服务 的 案例 与 解析 。 参 考 Hive 的 默认 配置 文件 中 
的 属性 : 


< property > 
< name > hive. server2. transport. mode < [name > 
< value > binary < /value > 
< description > 
Expects one of [ binary , http ]. 
Transport mode ofHiveServer2. 
« / description > 
« / property > 


传输 模式 支持 两 种 ，Binary 和 HTTP， 默 认 的 为 Binary。 
(一 ) 默认 传输 模式 (Binary) ， 启 动 JDBC/ODBC 服务 的 案例 与 解析 
这 种 情况 下 ， 在 hive - site. xml 中 没有 对 hive. server2. transport. mode 等 属性 进行 
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在 Spark 目录 中 ， 运 行 下 面 的 命令 启动 JDBC/ODBC 服务 器 。 


[ harli@ cluster01 spark ] $. /sbin/start — thriftserver. sh 

starting org. apache. spark. sql. hive. thriftserver. HiveThriftServer2, logging to /home/harli/cluster01/ 
spark/sbin/. . /logs/spark — harli — org. apache. spark. sql. hive. thriftserver. HiveThriftServer2 — 1 — clus- 
te101. out 


这 个 脚本 接受 任何 的 bin/spark - submit 命令 行 参 数 ， 加 上 一 个 -- hiveconf 参数 用 来 指 
HH Hive 属性 。 可 以 运行 “. /sbin/start — thriftserver. sh —— help” 来 获得 所 有 可 用 选项 的 完整 
列表 。 默 认 情 况 下 ， PM WWT localhost; 10000, 

可 以 用 环境 变量 覆盖 这 些 变 量 ， 如 下 所 示 。 


// 使 用 export 设置 环境 变量 
[ harli@ clustei01 spark ] $export HIVE_SERVER2_THRIFT_PORT = 10001 
[ harli@ clustei01 spark | $export HIVE SERVER2. THRIFT. BIND. HOST = cluster01 
// 设 置 环境 变量 后 执行 
[ harli@ clustei01. spark ] $. /sbin/start — thriftserver. sh V 
> —- master spark: //cluster01: 7077 
starting org. apache. spark. sql. hive. thriftserver. HiveThriftServer2, logging to /home/harli/cluster | 13/7 


spark/sbin/. . /logs/spark — harli — org. apache. spark. sql. hive. thriftserver. HiveThriftServer2 - 1 - clus- 
te101. out 

[ harli@ cluster01 spark ] $. /bin/beeline 

Spark assembly has been built with Hive, includingDatanucleus jars on classpath 
Beeline version 1. 3. 0 by Apache Hive 

beeline > !connectjdbc ; hive2: //cluster01: 10001 

scan complete in 52ms 

Connecting tojdbe ; hive2: //cluster01: 10001 

Enter username forjdbc : hive2: //cluster01: 10001: harli 

Enter password forjdbe ; hive2: //cluster01: 10001: 

Connected to;Spark SQL (version 1. 3. 0) 

Driver:Spark Project Core (version 1. 3. 0) 

Transaction isolation; TRANSACTION REPEATABLE READ 

0 : jdbc : hive2: //cluster01: 10001 > show tables; 


tableName | isTemporary | 
lpx_partition_test | false | 
partition_table | false | 
partition_test | false | 
! + 


3 rows selected (1.721 seconds) 
0 : jdbc : hive2: //cluster01: 10001 > 


设置 -- master 参数 后 ， 应 用 提交 到 Standaone 集群 ， 查 看 界面 可 以 看 到 应 用 信息 ， 具 体 
内 容 如 图 3. 21 所 示 。 

当前 使 用 默认 参数 ， 具 体 参数 和 spark - submit 一样， 可 以 根据 需要 调整 

也 可 以 通过 系统 变量 覆盖 ， 命 令 如 下 : 


(3 Spark Master at spark://cluster... [e] 


Qo | @ cluster01:8080 v @| |B Google a E 


Spaikt ,,: Spark Master at spark://cluster01:7077 


URL: spark //cluster01:7077. 

REST URL: spark //cluster01:6086 (cluster mode) 
Workers: 0 

Cores: 0 Total, 0 Used 

Memory: 0.0 B Total, 0.0 B Used 

Applications: 1 Running, 0 Completed 
Drivers: 0 Running, 0 Completed 

Status: ALIVE 


Workers 


Worker Id Address State Cores Memory 


Running Applications 


Application ID Name Cores Memory per Node Submitted Time User State Duration 
app-20150405214150-0000 SparkSQL ::cluster01 0 512.0 MB 2015/04/05 21:41:50 harli WAITING 1.2 min 


Completed Applications 


Application ID Name Cores Memory per Node Submitted Time User State Duration 


图 3.21 Spark 监控 界面 上 的 Applications 信息 


. /sbin/start — thriftserver. sh V 
—- hiveconf hive. server2. thrift. port = < listening ~ port > \ 
—- hiveconf hive. server2. thrift. bind. host = < listening — host > \ 


—-— master < master — uri > 


现在 你 可 以 用 beeline 来 测试 Thrift JOBC/ODBC 服务 器 了 。 
在 Spark 部 署 主 目录 下 输入 : 


[ harli@ cluste101 spark ] $. /bin/beeline 
Spark assembly has been built with Hive, includingDatanucleus jars on classpath 


Beeline version 1. 3. 0 by Apache Hive 


连接 到 Thrift JDBC/ODBC 服务 器 的 方式 如 下 : 


beeline > !connect jdbc:hive2: //localhost: 10000 

scan complete in 19ms 

Connecting tojdbc ; hive2: //localhost: 10000 

Enter username forjdbc ; hive2: //localhost : 10000 :harli 

Enter password forjdbe ; hive2: //localhost ; 10000 ; ss: 
Connected to:Spark SQL (version 1. 3. 0) 

Driver:Spark Project Core (version 1. 3. 0) 

Transaction isolation; TRANSACTION. REPEATABLE READ 


这 里 的 localhost 和 10000 是 默认 的 主机 和 端口 号 ， 可 以 用 Thrift JOBC/ODBC 服务 启动 时 
的 实际 主机 和 端口 号 进行 替换 。 

Beeline 将 会 询问 用 户 名 和 密码 。 在 非 安 全 的 模式 ， 简 单 地 输入 机 器 的 用 户 名 和 空 密码 
就 可 以 。 对 于 安全 模式 ， 可 以 按照 Beeline 文档 的 说 明 来 执行 。 

注意 : 当 报 URL 连接 无 效 时 ， 如 果 确 认 URL 正确 ， 可 以 查看 进程 或 日 志 ， 先 确认 下 Thrift JDBCZOD- 
BC 服务 是 否 已 经 正常 启动 。 

下 面 中 beeline 交互 界面 上 执行 基本 的 SQL i, UF Atm: 
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0 : jdbc: hive2: //localhost: 10000 > show tables; 


十 十 十 
tableName isTemporary 
bl 
十 十 十 


| lpx_partition_test — | false | 
| partition_table | false | 
| partition_test | false | 


+ + + 
3 rows selected (2. 098 seconds) 
0: jdbc; hive2: //localhost: 10000 > select * from partition. table; 


+ 一 一 一 一 一 一 + 
[age | 

+ 一 一 一 一 一 一 十 
+ 一 一 一 一 一 一 + 


No rows selected (1.59 seconds) 


show tables 可 以 看 到 之 前 用 SQLContext 在 Hive 中 建立 的 所 有 表 信 息 。 
最 后 向 beeline 发 送 quit 命令 ， 退 出 : 


0:jdbc:hive2: //cluster01: 10001 > !quit 
Closing :0 : jdbc : hive2: //cluster01: 10001 


(二 ) HTTP 传输 模式 启动 JDBC/ODBC 服务 的 案例 与 解析 
Thrift JDBC 服务 业 支 持 通过 HTTP. 传输 模式 来 发 送 thrift RPC 消息 。 可 以 通过 将 HTTP 模式 的 
配置 设置 成 系统 属性 ， 或 修改 conf 下 的 hive -site. xml 文件 中 的 属性 配置 来 实现 ， 如 下 所 示 。 


< property > 
< name > hive. server2. transport. mode < /name > 
< value > http < /value > 
< description > 
Expects one of [ binary, http ]. 
Transport mode ofHiveServer2. 
</description > 
</property > 
< property > 
< name > hive. server2. thrift. http. port < /name > 
< value > 10001 < /value > 
< description > Port number ofHiveServer2 Thrift interface when hive. server2. transport. mode i$ http . 
</description > 
</property > 
< property > 
« name > hive. server2. thrift. http. path « /name > 
< value > cliservice « / value > 
< description > Path component of URL endpoint when in HTTP mode. « /description > 
« / property > 


其 中 ， 最 后 一 个 为 hive. server2. thrift. http. path 属性 (官网 上 的 属性 在 默认 hive - de- 
fault. xml 中 没有 找到 ) 。 添 加 后 ， 复 制 到 “$Spark_HOME/conf” 目录 下 。 
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编辑 hive2server 启动 脚本 : 


启动 Thrift Server 测试 : 


nohup . /bin/hiveserver2 >> hiveserver2. log 2 > &1 & 
echo$! > hive - server2. pid 


[ harli@ cluster01 spark]$ — . /sbin/start — thriftserver. sh —— master spark: //cluster01: 7077 

starting org. apache. spark. sql. hive. thriftserver. HiveThriftServer2, logging to /home/harli/cluster | 13/7 
spark/sbin/. . /logs/spark — harli — org. apache. spark. sql. hive. thriftserver. HiveThriftServer2 — 1 — clus- 
te101. out 


启动 beeline 连接 、 查 询 . 


[ harli@ clustei01 spark ] $. /bin/beeline 

Spark assembly has been built with Hive, includingDatanucleus jars on classpath 

Beeline version 1. 3. 0 by Apache Hive 

beeline >! connectjdbe; hive2 ://cluster01; 10001/default? hive. server2. transport. mode = http; 
hive. server2. thrift. http. path = cliservice 

scan complete in 1ms 

Connecting tojdbc:hive2: //cluster01 : 10001/default? hive. server2. transport. mode = http; hive. server2. 
thrift. http. path = cliservice 

Enter username forjdbc; hive2 ://cluster01:; 10001/default? hive. server2. transport. mode = http; 
hive. server2. thrift. http. path = cliservice ; root 

Enter password forjdbc; hive2 ://cluster01 : 10001/default? hive. server2. transport. mode = http; 
hive. server2. thrift. http. path = cliservice; ss 

Connected to;Spark SQL ( version 1. 3. 0) 

Driver; Spark Project Core ( version 1. 3. 0) 

Transaction isolation; TRANSACTION REPEATABLE READ 

0 : jdbc: hive2: //cluster01: 10001/default > show tables; 

十 十 十 


|tableName | isTemporary | 


+ + + 
| pokes | false | 

| pokes_test — | false | 

|t | false | 

+ + + 


3 rows selected (0. 194 seconds) 
0:jdbe:hive2: //cluster01: 10001/default > select * from t; 


十 十 十 十 
la [b le | 

十 十 十 十 
十 十 十 十 


No rows selected (1. 184 seconds) 


这 里 也 可 以 试 试 启动 Hive 的 服务 Hive2server， 如 下 所 示 : 


[ harli@ clustei01 hive ] $. /bin/start — hiveserver2. sh 
[ harli@ cluster01 hive | $jps 
5023 Worker 
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4575 Secondary NameNode 
9059 Jps 

4349 DataNode 

4793 Master 

8520 BeeLine 
4168NameNode 

8971 RunJar 
7445RunJar 


可 以 看 到 ， 这 里 增加 了 一 个 Runar 的 进程 。 由 于 hivemetastore 的 进程 名 字 一 样 ， 都 是 
RunJar, Hive 脚本 中 没有 直接 提供 停止 服务 的 操作 ， 因 此 这 里 在 脚本 中 将 pid 信息 写 人 了 各 
自 的 文件 中 。 通 过 查看 该 文件 ， 获 取 pid 值 ， 然 后 关闭 进程 。 

启动 HTTP 模式 下 的 beeline ; 


[ harli@ cluster01 spark ] $. /bin/beeline 


Spark assembly has been built with Hive, includingDatanucleus jars on classpath 


Beeline version 1. 3. 0 by Apache Hive 

// 连 接 

beeline >! connectjdbc: hive2 ://cluster01 : 10001/default? hive. server2. transport. mode = http; 
hive. server2. thrift. http. path = cliservice 

scan complete in 1ms 

Connecting to jdbc; hive2 ://cluster01 : 10001/default? hive. server2. transport. mode = http; 
hive. server2. thrift. http. path = cliservice 

Enter username for jdbc; hive2 ://cluster01 : 10001/default? hive. server2. transport. mode = http; 
hive. server2. thrift. http. path = cliservice ; root 

Enter password for jdbc; hive2 ://cluster01 : 10001/default? hive. server2. transport. mode = http; 
hive. server2. thrift. http. path = cliservice; * * * x * 

Connected to; Apache Hive (version 1. 1. 0) 

Driver:Spark Project Core (version 1. 3. 0) 

"Transaction isolation; TRANSACTION REPEATABLE READ 

/查询 默认 数据 库 中 的 表 

0:jdbc:hive2 ;// cluste101 :10001/default > show tables; 


| tab name | 


| pokes | 
| pokes_test | 
lt | 


3 rows selected (1. 168 seconds) 
// 查 询 pokes 表 的 数据 
0:jdbc:hive2: //cluster01: 10001/default > select * from pokes; 


| pokes. foo | pokes. bar | 


No rows selected (1. 161 seconds) 


这 里 的 10001 为 刚才 设置 属性 hive. server2. thrift. http. port, default 为 默认 的 数据 库 。 连 
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接 成 功 ， 并 查询 出 当前 Hive 中 已 经 有 三 个 表 。 
二 、Spark SQL CLI 的 案例 与 解析 
Spark SQL CLI 是 一 个 便利 的 工具 ， 它 可 以 在 本 地 运行 Hive 元 存储 服务 、 执 行 命令 行 输 

人 的 查询 。 注 意 ，Spark SQL CLI 不 能 与 Thrift JDBC 服务 器 通信 。 © 
在 Spark 目录 运行 下 面 的 命令 可 以 启动 Spark SQL CLI: 


. /bin/spark - sql 


注意 : 如 果 Hive 使 用 内 置 的 默认 derby 数据 库 ， 同 时 只 能 允许 一 个 会 话 连接 ， 则 启动 Thrift JDBC 服 
务 后 再 次 启动 Spark -sd 将 会 报 异常 ， 异 常 信息 会 包含 以 下 内 容 : 


Caused by: java. sql. SQLException; Failed to start database metastore _ db with class loader 
sun. misc. Launcher $AppClassLoader@ 46aea8cf, see the next exception for details. 
at org. apache. derby. impl. jdbc. SQLExceptionFactory. getSQLException ( Unknown Source) 

at org. apache. derby. impl. jdbc. SQLExceptionFactory40. wrapArgsForTransportAcrossDRDA ( Un- 
known Source) 
...77 more 
Caused by: java. sql. SQLException; Another instance of Derby may have already booted the database / 
home/ harli/ cluster. 13/spark/metastore db. 


连接 Hive 时 ， 在 CLASSPATH 中 添加 数据 库 驱 动 jar 包 ， 输 入 命令 : 


Spark _CLASSPATH = $Spark _CLASSPATH ;/ home/harli/cluster/hive/lib/mysql — connector — java — 
5. 1. 35 - bin. jar. /bin/spark — sql 


查询 当前 表 信息 : 


spark — sql > show tables; 

15/04/06 06: 19: 29 INFOmetastore. HiveMetaStore :0 : get, tables:db = default pat =. * 

15/04/06 06: 19: 29 INFOHiveMetaStore. audit: ugi = harliip = unknown — ip — addremd = get, tables ; db 
= default pat =. * 

15/04/06 06: 19: 29 INFO spark. SparkContext : Starting job : collect at SparkPlan. scala :83 

15/04/06 06: 19: 29 INFO scheduler. StatsReportListener:0% 5% 10% 25% 5096 75% 
90% 95% 10096 

15/04/06 06: 19: 29 INFO scheduler. StatsReportListener:95% 95% 95% 95% 95% 95% 
95% 95% 95% 

15/04/06 06: 19: 29 INFO scheduler. DAGScheduler: Job 2 finished : collect at 

SparkPlan. scala ;83 ,took 0. 110593 s 


pokesfalse 


pokes_testfalse 
Time taken:0. 13 seconds, Fetched 2 row( s) 
15/04/06 06: 19: 29 INFOCliDriver; Time taken;0. 13 seconds, Fetched 2 row( s) 


查询 成 功 ， 就 可 以 开始 执行 其 他 的 SQL 语句 了 。 


基于 Hive 的 人 力 资源 系统 数据 处 理 案例 与 解析 


这 一 节 给 出 一 个 简单 的 公司 人 力 资源 系统 的 数据 处 理 案例 与 解析 。 通 过 该 案例 ， 给 出 一 
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个 比较 完整 的 、 复 人 杂 的 数据 处 理 案例 ， 同 时 给 出 案例 的 详细 解析 。 包 括 以 下 几 个 部 分 : 
1) 人 力 资 源 系 统 的 数据 库 与 表 的 构建 。 
2) 人 力 资源 系统 的 数据 的 加 载 。 l 
3) 人 力 资源 习题 的 数据 的 查询 。 poe querar E 
当前 人 力 资源 管理 系统 的 管理 内 容 组 织 结构 
如 图 3. 22 所 示 。 
qid 资源 系统 的 数据 包含 以 下 几 个 部 分 : 
职工 基本 信息 : 存放 各 | 
HAT id, WAT PER, HTE, AR 图 3.22 ”人力 资源 管理 系统 内 容 组 织 结构 图 
年 份 ， 职 位 ， 所 在 部 门 id 等 信息 ; 数据 内 容 如 下 : 


Michael ,1 , male ,37 ,2001 , developer ,2 

Andy ,2 ,female ,33 ,2003 , manager, 1 

Justin ,3 , female ,23 ,2013 , recruitingspecialist ,3 
John,4 , male ,22 ,2014, developer,2 

Herry ,5 , male ,27 ,2010, developer, 1 

Brewster,6 , male ,37 ,2001 , manager,2 

Brice,7 ,female ,30 ,2003 , manager ,3 

Justin,8 ,male,23 ,2013 ,recruitingspecialist ,3 
John ,9 ,male,22 ,2014, developer, 1 

Herry , 10 , female ,27 ,2010 , recruitingspecialist ,3 


2. 部 门 基本 信息 : 存放 部 门 信息 ， 包 含 部 门 名 称 ， 编 号 ， 数 据 内 容 如 下 : 


management , 1 


cur up S ak H Sa 
aS H HSS 


researchanddevelopment ,2 


HumanResources ,3 


3. 职工 考勤 信息 : 存放 职工 的 考勤 信息 ， 包 会 年 、 月 信息 ， 职 工 加 班 ， 迟 到 ， 上 旷工 ， 
早退 腿 小 时 数 信息 JUS o 


1,2015,12,0,2,4,0 
2,2015,8,5,0,5,3 
3,2015,3,16,4,1,5 
4,2015,3,0,0,0,0 
5.2015,3,0,3,0,0 

6 ,2015 ,3 ,32,0,0,0 
7,2015,3,0,16,3,32 
8,2015,19,36,0,0,0,3 
9,2015,5,6,30,0,2,2 
10,2015,10,6,56,40,0,22 
1,2014,12,0,2,4,0 
2,2014,38,5,40,5,3 
3,2014,23,16,24,1,5 
4,2014 ,23 ,0,20,0,0 
5.2014,3,0,3,20,0 
6,2014,23,32,0,0,0 

7 ,2014,43,0,16,3,32 
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8,2014,49,36,0,20,0,3 
9.2014 ,45,6,30,0,22,2 
10,2014 ,40 6 56,40 ,0 ,22 


4. 职工 工资 清 TR. 存放 下 只 工 每 月 的 工资 清 单 信息 AS o 


1,5000 
2,10000 
3,6000 
4,7000 
5,5000 
6,11000 
7 ,12000 
8,5500 
9,6500 
10,4500 


二 是 日 人 力 资源 系统 的 数据 库 与 表 的 构建 


将 人 力 资源 系统 的 数据 加 载 到 Hive 仓库 的 HRS 数据 库 中 ， 并 对 人 力 资源 系统 的 数据 分 
别 建 表 。 
1. 启动 spark - shell 


bin/spark — shell —— executor ~ memory 2g —— driver - memory 1g —— master 
spark: //cluster01: 7077 


Hop, cluster01 为 当前 Spark 的 Master 节点 。 

由 于 当前 使 用 Hive 作为 数据 仓库 ， 因 此 需要 参考 章节 3. 3. 6 集成 Hive 数据 仓库 的 案例 
与 解析 准备 环境 ， 即 已 经 进行 hive - site. xml 文件 配置 并 启动 了 metastore 服务 等 准备 操作 。 

除去 多 余 的 日 志 信 息 : 


scala > import org. apache. log4j. | Level , Logger | 

import org. apache. log4j. | Level , Logger} 

scala » Logger. getLogger( " org. apache. spark" ). setLevel( Level. WARN) 

scala » Logger. getLogger( " org. apache. spark. sql" ). setLevel( Level. WARN) 
scala » Logger. getLogger( " org. apache. hadoop. hive" ). setLevel( Level. WARN) 


应 用 程序 方式 提交 时 ， 可 以 在 配置 文件 conf/log4j. properties 中 设置 日 志 等 级 ， 如 下 
所 示 : 
log4j. logger. org. apache. spark = WARN 


log4j. logger. org. apache. spark. sql = WARN 
log4j. logger. org. apache. hadoop. hive. ql Z WARN 


2. 构建 与 使 用 HRS 数据 库 
1) 使 用 CREATE DATABASE 语句 创建 名 为 HRS 的 数据 库 ， 存 放 人 力 资 源 系统 的 数据 : 


scala > sqlContext. sql( " CREATE DATABASE HRS" ) 
15/05/18 09:49:51 WARNHiveConf; DEPRECATED : Configuration property 
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hive. metastore. local no longer has any effect. Make sure to provide a valid value for 


hive. metastore. uris if you are connecting to a remote metastore. 

15/05/18 09: 49: 51 INFOParseDriver:; Parsing command; CREATE DATABASE HRS 
15/05/18 09: 49: 51 INFOParseDriver ; Parse Completed 

15/05/18 09: 49: 51 INFOParseDriver: Parsing command; CREATE DATABASE HRS 
15/05/18 09: 49: 51 INFOParseDriver; Parse Completed 


res10 : org. apache. spark. sql. DataFrame = [ result: string ] 


2) 使 用 人 力 资源 系统 的 数据 库 HRS: 


scala > sqlContext. sql( " USE HRS" ) 

15/05/18 09:50: 33 WARNHiveConf; DEPRECATED : Configuration property 

hive. metastore. local no longer has any effect. Make sure to provide a valid value for 
hive. metastore. uris if you are connecting to a remote metastore. 

15/05/18 09: 50: 33 INFOParseDriver:; Parsing command; USE HRS 

15/05/18 09: 50: 33 INFOParseDriver ; Parse Completed 

15/05/18 09: 50: 33 INFOParseDriver:; Parsing command; USE HRS 

15/05/18 09: 50: 33 INFOParseDriver; Parse Completed 


res11 : org. apache. spark. sql. DataFrame = [ result; string | 


3. 数据 建 表 
创建 四 个 数据 对 应 的 表 ， 仅 在 表 不 存在 时 创建 〈( 表 存在 时 不 创建 ) 。 
1) 构建 职工 基础 信息 表 people: 


scala > sqlContext. sql( " CREATE TABLE IF NOT EXISTS people( name STRING, id 
INT, gender STRING, age INT, year INT, position STRING,depID INT) ROW FORMAT 
DELIMITED FIELDS TERMINATED BY ; LINES TERMINATED BY \n ") 

15/05/19 10:52:58 WARNHiveConf; DEPRECATED ; Configuration property 

hive. metastore. local no longer has any effect. Make sure to provide a valid value for 

hive. metastore. uris if you are connecting to a remote metastore. 

15/05/19 10: 52: 58 INFOParseDriver: Parsing command; CREATE TABLE IF NOT 
EXISTS people( name STRING, id INT, gender STRING, age INT, year INT, position 
STRING, depID INT) ROW FORMAT DELIMITED FIELDS TERMINATED BY 5 LINES 
TERMINATED BY' 

15/05/19 10: 52: 58 INFOParseDriver ; Parse Completed 

15/05/19 10: 52: 58 INFOParseDriver: Parsing command; CREATE TABLE IF NOT 
EXISTS people( name STRING, id INT, gender STRING, age INT, year INT, position 
STRING, depID INT) ROW FORMAT DELIMITED FIELDS TERMINATED BY 5 LINES 
TERMINATED BY' 

15/05/19 10: 52: 58 INFOParseDriver; Parse Completed 

15/05/19 10: 52: 58 INFODDL Task ; Default to LazySimpleSerDe for table people 


res10 : org. apache. spark. sql. DataFrame = [ result: string ] 


2) 构建 部 门 基础 信息 表 department: 


scala > sqlContext. sql( " CREATE TABLE IF NOT EXISTS department ( name STRING, depID INT) 
ROW FORMAT DELIMITED FIELDS TERMINATED BY ; LINES TERMINATED BY \n ") 
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res11 :org. apache. spark. sql. DataFrame = | result: string | 


3) 构建 职工 考勤 信息 表 attendance: 


scala > sqlContext. sql( " CREATE TABLE IF NOT EXISTS attendance (id INT,year INT, u 
month INT, overtime INT ,latetime INT, absenteeism INT, leaveearlytime INT) ROW S 
FORMAT DELIMITED FIELDS TERMINATED BY ; LINES TERMINATED BY Wi ") 


res12 : org. apache. spark. sql. DataFrame = [ result; string | 


4) 构建 职工 工资 清单 表 salary: 


scala > sqlContext. sql( " CREATE TABLE IF NOT EXISTS salary (id INT,salary INT) ROW 
FORMAT DELIMITED FIELDS TERMINATED BY ; LINES TERMINATED BY Wi ") 


res13 : org. apache. spark. sql. DataFrame = [ result ; string | 


人 力 资源 系统 的 数据 的 加 载 


分 别 将 本 地 文本 文件 的 数据 加 载 到 四 个 表 。 
职工 基础 信息 表 的 加 载 操作 如 下 : 


scala > sqlContext. sql(" LOAD DATA LOCAL INPATH 
' /home/harli/cluster/data/people. txt OVERWRITE INTO TABLE people " ) 
15/05/19 10:55:09 WARNHiveConf; DEPRECATED : Configuration property 


hive. metastore. local no longer has any effect. Make sure to provide a valid value for 


hive. metastore. uris if you are connecting to a remote metastore. 

15/05/19 10:55:09 INFOParseDriver: Parsing command: LOAD DATA LOCAL INPATH 
' /home/harli/cluster/data/people. txt OVERWRITE INTO TABLE people 

15/05/19 10:55:09 INFOParseDriver:; Parse Completed 

15/05/19 10: 55: 09 INFOParseDriver: Parsing command: LOAD DATA LOCAL INPATH 
' /home/harli/cluster/data/people. txt OVERWRITE INTO TABLE people 

15/05/19 10: 55: 09 INFOParseDriver:; Parse Completed 

rmr; DEPRECATED; Please use’ rm — t instead. 

15/05/19 10: 55: 12 INFOTrashPolicy Default : Namenode trash configuration ; Deletion 
interval =0 minutes , Emptier interval 20 minutes. 

Deletedhdfs: //cluster01: 9000/user/hive/warehouse/hrs. db/people 

15/05/19 10: 55: 12 INFO Hive; Replacing 

src : hdfs: //cluster01: 9000/tmp/hive — harli/hive 2015 -05 —19 10 —55 -09_ 848. 554477476 
7724946117 — 1/ — ext — 10000; dest: 

hdfs: //cluster01: 9000/user/hive/warehouse/ hrs. db/people ; Status ; true 


res14 : org. apache. spark. sql. DataFrame = [ result; string ] 


其 中 OVERWRITE 表示 禾 盖 当前 表 的 数据 ， 即 先 清除 表 数 据 ， 再 将 数据 insert 到 表 中 。 
其 他 表 的 加 载 操 作 类 似 ， 具 体 如 下 : 


/加 载 部 门 基础 信息 表 数 据 

sqlContext. sql( " LOAD DATA LOCAL INPATH' /home/harli/cluster/ data/ department. txt 
INTO TABLE department " ) 

/加 载 职工 考勤 信息 表 数 据 
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sqlContext. sql( " LOAD DATA LOCAL INPATH' /home/harli/cluster/data/ attendance. txt 
INTO TABLE attendance" ) 

/加载 职工 工资 清单 表 数据 

sqlContext. sql(" LOAD DATA LOCAL INPATH' /home/harli/cluster/data/salary. txt INTO 
TABLE salary" ) 


JUI 人 力 资源 系统 的 数据 的 查询 


人 力 资源 系统 的 数据 常见 的 查询 操作 有 部 门 职工 数 的 查询 、 部 门 职工 的 薪资 topN 的 查 
询 、 部 门 职工 平均 工资 的 排名 、 各 部 门 每 年 职工 薪资 的 总 数 查 询 等 ， 下 面 给 出 具体 的 操作 
方法 。 

查看 各 表 的 信息 ， 同 时 查看 界面 回 显 中 的 schema 信息 : 


scala > sqlContext. sql( " select * from people" ) 

res5 :org. apache. spark. sql. DataFrame = [ name; string, id; int, gender: string age; int , 
year ; int , position ; string , depid ; int | 

scala > sqlContext. sql( " select * from department" ) 

res6 : org. apache. spark. sql. DataFrame = [ name; string , depid; int | 

scala > val attendance = sqlContext. sql( " select * from attendance" ) 

attendance; org. apache. spark. sql. DataFrame = [ id :int, year; int , month; int, overtime ; 
int, latetime ; int , absenteeism: int , leaveearlytime ; int | 

scala > val salary = sqlContext. sql( " select * from salary" ) 


salary : org. apache. spark. sql. DataFrame = [ id: int, salary; int | 


1. 部 门 职工 数 的 查询 
首先 将 people 表 数 据 与 department 表 数 据 进行 join 操作 ， 然 后 根据 department 的 部 门 名 
进行 分 组 ， 分 组 后 针对 people 中 唯一 标识 一 个 职工 的 id 字段 进行 统计 ， 最 后 得 到 各 个 部 门 

对 应 的 职工 总 数 统计 信息 。 


scala > sqlContext. sql ( " select b. name, count ( a. id) from people a join department b on a. depid = 
b. depid group by b. name" ). show 

15/05/19 10: 56: 01 WARNHiveConf; DEPRECATED; Configuration property hive. metastore. local no 
longer has any effect. Make sure to provide a valid value for hive. metastore. uris if you are connecting to a 
remote metastore. 

15/05/19 10: 56: 01 INFOParseDriver ; Parsing command : select b. name , count( a. id) from people a join 
department b on a. depid = b. depid group by b. name 

15/05/19 10: 56: 01 INFOParseDriver: Parse Completed 

15/05/19 10: 56: 02 INFO deprecation: mapred. map. tasks is deprecated. Instead, use mapreduce. job. 
maps 

15/05/19 10: 56: 02 WARNHiveConf; DEPRECATED; Configuration property hive. metastore. local no 
longer has any effect. Make sure to provide a valid value for hive. metastore. uris if you are connecting to a 
remote metastore. 

15/05/19 10: 56: 02 INFOFileInputFormat ; Total input paths to process :1 

15/05/19 10: 56: 08 WARNHiveConf; DEPRECATED; Configuration property hive. metastore. local no 
longer has any effect. Make sure to provide a valid value for hive. metastore. uris if you are connecting to a 
remote metastore. 


15/05/19 10: 56: 08 INFOFileInputFormat ; Total input paths to process; | 
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name cl 
HumanResources 


researchanddevelo... 


ww 4| 


management 


2. 对 各 个 部 门 职工 薪资 的 总 数 、 平 均值 的 排序 © 

首先 根据 部 门 id 将 people 表 数 据 与 department 表 数 据 进行 join 操作 ， 根 据 职 工 idjoinsal- 
ary 表 数 据 ， 然 后 根据 department 的 部 门 名 进行 分 组 ， 分 组 后 针对 职工 的 薪资 进行 求 和 或 求 
平均 值 ， 并 根据 该 值 大 小 进行 排序 (默认 排序 为 从 小 到 大 ) 。 


scala > sqlContext. sql( " select b. name,sum( c. salary) as s from people a join department b on a. depid 
2 b. depid join salary c on a. id = c. id group by b. name order by s" ). show 

15/05/19 11: 01: 16 WARNHiveConf; DEPRECATED; Configuration property hive. metastore. local no 
longer has any effect. Make sure to provide a valid value for hive. metastore. uris if you are connecting to a 
remote metastore. 

15/05/19 11:01: 16 INFOParseDriver ; Parsing command :select b. name ,sum( c. salary) as s from people 
a join department b on a. depid = b. depid join salary c on a. id = c. id group by b. name order by s 
15/05/19 11:01: 16 INFOParseDriver; Parse Completed 

15/05/19 11:01: 16 INFOFileInputFormat ; Total input paths to process; | 

15/05/19 11: 01: 17 WARNHiveConf; DEPRECATED; Configuration property hive. metastore. local no 
longer has any effect. Make sure to provide a valid value for hive. metastore. uris if you are connecting to a 
remote metastore. 

15/05/19 11:01: 17 INFOFileInputFormat ; Total input paths to process :1 

15/05/19 11:01: 17 INFOFileInputFormat ; Total input paths to process; 1 


name s 
management 21500 
researchanddevelo...23000 
HumanResources 28000 


查询 各 个 部 门 职工 薪资 的 平均 值 的 排序 如 下 : 


scala > sqlContext. sql( " select b. name ,avg(c. salary) as s from people a join department b on a. depid = 
b. depid join salary c on a. id = c. id group by b. name order by s" ). show 

15/05/20 11:43:07 WARNHiveConf; DEPRECATED : Configuration property 

hive. metastore. local no longer has any effect. Make sure to provide a valid value for hive. metastore. uris if 
you are connecting to a remote metastore. 

15/05/20 11:43:07 INFOParseDriver; Parsing command select b. name,avg( c. salary) as s from people 
a join department b on a. depid = b. depid join salary c on a. id = c. id group by b. name order by s 
15/05/20 11:43:07 INFOParseDriver; Parse Completed 

15/05/20 11: 43: 08 INFO deprecation; mapred. map. tasks is deprecated. Instead, use mapreduce. job. 
maps 

15/05/20 11: 43: 08 WARNHiveConf; DEPRECATED; Configuration property hive. metastore. local no 
longer has any effect. Make sure to provide a valid value for hive. metastore. uris if you are connecting to a 
remote metastore. 

15/05/20 11: 43: 09 WARNHiveConf; DEPRECATED; Configuration property hive. metastore. local no 
longer has any effect. Make sure to provide a valid value for hive. metastore. uris if you are connecting to a 
remote metastore. 

15/05/20 11:43:09 INFOFileInputFormat ; Total input paths to process :1 

15/05/20 11:43:09 INFOFileInputFormat ; Total input paths to process :1 
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15/05/20 11: 43: 16 WARNHiveConf: DEPRECATED; Configuration property hive. metastore. local no 


longer has any effect. Make sure to provide a valid value for hive. metastore. uris if you are connecting to a 


remote metastore. 


15/05/20 11:43: 16 INFOFileInputFormat ; Total input paths to process :1 


name s 
HumanResources 7000. 0 
management 7166. 666666666667 


researchanddevelo...7666. 666666666667 
3. 查询 各 个 部 门 职工 的 考勤 信息 
首先 根据 职工 id 将 attendance 考勤 表 数 据 与 people 职工 表 数 据 进行 join 操作 ， 并 计算 职 
工 的 考勤 信息 ， 然 后 根据 department 的 部 门 名 、 考 勤 信息 的 年 份 进行 分 组 ， 分 组 后 针对 职工 
的 考勤 信息 进行 统计 。 


scala > sqlContext. sql ( " select b. name, sum ( h. attdinfo) , h. year from (select a. id, a. depid, at. year, 


at. month, overtime — latetime — absenteeism — leaveearlytime as attdinfo from attendance at join people a 
on at. id = a. id) h join department b on h. depid = b. depid group by b. name, h. year" ). show 
15/05/22 10: 08: 40 WARNHiveConf; DEPRECATED; Configuration property hive. metastore. local no 
longer has any effect. Make sure to provide a valid value for hive. metastore. uris if you are connecting to a 
remote metastore. 

15/05/22 10: 08: 40 INFOParseDriver; Parsing command: select b. name , sum ( h. attdinfo) , h. year from 
(select a. id, a. depid, at. year, at. month, overtime — latetime — absenteeism — leaveearlytime as attdinfo 
from attendance at join people a on at. id = a. id) h join department b on h. depid = b. depid group by 
b. name,h. year 

15/05/22 10: 08: 40 INFOParseDriver; Parse Completed 

15/05/22 10: 08: 40 INFOFileInputFormat ; Total input paths to process : 1 

15/05/22 10: 08: 40 INFOFileInputFormat ; Total input paths to process :1 

15/05/22 10: 08: 40 INFOFileInputFormat ; Total input paths to process; 1 


name _cl year 

management — 112 2014 
management -32 2015 
HumanResources — 139 2014 
HumanResources -99 2015 


researchanddevelo...6 2014 
researchanddevelo...26 2015 


其 中 ， 返 回 结果 中 的 第 一 行 表 示 字 段 名 ，_el 为 新 增 的 考勤 信息 统计 结果 字段 名 ; 其 他 
行 表示 对 应 字段 的 值 。 
4. 合并 前 面 的 全 部 查询 


scala > sqlContext. sql ( " select e. name, e. pcount, f. sumsalary , f. avgsalary ,j. year,j. sumattd from (se- 
lect b. name, count (a. id) as pcount from people a join department b on a. depid = b. depid group by 
b. name order by pcount) e join (select b. name ,sum(c. salary) as sumsalary ,avg( c. salary) as avgsalary 
from people a join department b on a. depid = b. depid join salary c on a. id = c. id group by b. name order 
by sumsalary) f on (e. name =f. name) join (select b. name, sum( h. attdinfo) as sumattd , h. year from 
(select a. id, a. depid , at. year, at. month, overtime — latetime — absenteeism — leaveearlytime as attdinfo 
from attendance at join people a on at. id = a. id) h join department b on h. depid = b. depid group by 
b. name,h. year) j on f. name = j. name order by f. name" ). show 


15/05/22 10: 17: 31 WARNHiveConf; DEPRECATED; Configuration property hive. metastore. local no 
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longer has any effect. Make sure to provide a valid value for hive. metastore. uris if you are connecting to a 
remote metastore. 

15/05/22 10: 17: 31 INFOParseDriver; Parsing command; select e. name, e. pcount, f. sumsalary, 
f. avgsalary,j. year,j. sumattd from (select b. name, count( a. id) as pcount from people a join depart- 
ment b on a. depid = b. depid group by b. name order by pcount) e join (select b. name, sum( c. salary ) © 
as sumsalary ,avg(c. salary) as avgsalary from people a join department b on a. depid = b. depid join sala- 
ry c on a. id = c. id group by b. name order by sumsalary) f on (e. name = f. name) join (select b. name, 
sum(h. attdinfo) as sumattd ,h. year from (select a. id, a. depid , at. year, at. month, overtime — latetime — 
absenteeism — leaveearlytime as attdinfo from attendance at join people a on at. id =a. id) h join depart- 
ment b on h. depid = b. depid group by b. name,h. year) j on f. name =j. name order by f. name 
15/05/22 10: 17: 31 INFOParseDriver:; Parse Completed 

15/05/22 10: 17: 31 INFOFileInputFormat ; Total input paths to process :1 

15/05/22 10: 17: 31 WARNHiveConf; DEPRECATED; Configuration property hive. metastore. local no 
longer has any effect. Make sure to provide a valid value for hive. metastore. uris if you are connecting to a 
remote metastore. 

15/05/22 10: 17: 31 INFOFileInputFormat ; Total input paths to process ; 1 

15/05/22 10: 17: 31 WARNHiveConf; DEPRECATED; Configuration property hive. metastore. local no 
longer has any effect. Make sure to provide a valid value for hive. metastore. uris if you are connecting to a 
remote metastore. 

15/05/22 10: 17: 31 INFOFileInputFormat ; Total input paths to process :1 

15/05/22 10: 17: 31 INFOFileInputFormat ; Total input paths to process :1 

15/05/22 10: 17: 31 INFOFileInputFormat ; Total input paths to process :1 

15/05/22 10: 17: 32 WARNHiveConf; DEPRECATED; Configuration property hive. metastore. local no 
longer has any effect. Make sure to provide a valid value for hive. metastore. uris if you are connecting to a 
remote metastore. 

15/05/22 10: 17: 32 INFOFileInputFormat : Total input paths to process :1 

15/05/22 10: 17: 32 INFOFileInputFormat ; Total input paths to process :1 

15/05/22 10: 17: 32 INFOFileInputFormat : Total input paths to process :1 

15/05/22 10: 17: 32 INFOFileInputFormat ; Total input paths to process :1 

15/05/22 10: 17: 34 INFOFileInputFormat ; Total input paths to process :1 


name pcountsumsalaryavgsalary year sumattd 
HumanResources 4 28000 7000. 0 2014 — 139 
HumanResources 4 28000 7000. 0 2015 -99 
management 3 21500 7166. 666666666667 2014 -112 
management 3 21500 7166. 666666666667 2015 -32 
researchanddevelo...3 23000 7666. 666666666667 2014 6 
researchanddevelo...3 23000 1666. 666666666667 2015 26 


将 前 面 的 几 个 查询 合并 到 一 个 SQL 语句 中 ， 最 后 得 到 部 门 的 各 种 统计 信息 ， 包 括 部 门 
职工 数 、 部 门 薪资 、 部 门 每 年 的 考勤 统计 等 信息 。 
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TED Spark Streaming 概述 


Spark Streaming 是 一 种 构建 在 Spark 上 的 实时 计算 框架 ， 它 扩展 了 Spark 处 理 大 规模 流 
式 数 据 的 能 力 。 对 应 在 伯克利 数据 分 析 协 议 栈 中 的 位 置 如 图 4. 1 所 示 。 


Spark Streaming 是 Spark 核心 API 的 一 个 CR 
E NEUES AT EU EY, HARI 
的 实时 流 数据 的 处 理 。 支 持 从 多 种 数据 源 获 ms 


A XX He, 包括 Kafka, Flume, Twitter, Ze- 


roMQ, Kinesis 以 及 TCP socketls， 从 数据 源 区 
取 数 据 之 后 ， 可 以 使 用 诸如 map, reduce, 
join 和 window 等 高 级 函数 进行 复杂 算法 的 处 HDFS,$3,LocalFS,ClusterFS,NFS,Ceph,... 


理 。 最 后 还 可 以 将 处 理 结果 存储 到 文件 系统 ， 

数据 库 和 现场 仪表 盘 上 。 在 “One Stack rule 
them all” 的 基础 还 可 以 使 用 Spark 的 其 图 4. 1 伯克利 数据 分 析 协 议 栈 

他 子 框架 ， 如 集群 学 习 、 图 计算 等 ， 对 流 数 


据 进 行 处 理 。 
官网 提供 的 Spark Streaming 处 理 的 数据 流 如 图 4. 2 所 示 。 
< 
Spark 


Streaming | V Coston) 


图 4.2 Spark Streaming 的 数据 流 图 


Spark 的 各 个 子 框架 ， 都 是 基于 核心 Spark HJ, Spark Streaming 在 内 部 的 处 理 机 制 是 ， 接 
收 实时 流 的 数据 ， 并 根据 一 定 的 时 间 间 隔 拆 分 成 一 批 批 的 数据 ， 然 后 通过 Spark Engine 处 理 
这 些 批 数据 ， 最 终 得 到 处 理 后 的 一 批 批 结 果 数 据 。 

对 应 的 批 数据 ， 在 Spark 内 核对 应 一 个 RDD 实例 ， 因 此 ， 对 应 流 数据 的 DStream 可 以 看 
成 是 一 组 RDD， 即 RDD 的 一 个 序列 。 通 俗 点 理解 的 话 ， 在 流 数 据 分 成 一 批 一 批 后 ， 通 过 一 
个 先进 先 出 的 队列 ， 然 后 Spark Engine 从 该 队列 中 依次 取出 一 个 个 批 数据 ， 把 批 数据 封装 成 
一 个 RDD， 然 后 进行 处 理 ， 这 是 一 个 典型 的 生产 者 - 消费 者 模型 ， 对 应 的 就 有 生产 者 - 消 
费 者 模型 的 问题 ， 即 如 何 协调 生产 速率 和 消费 速率 。 

官网 上 给 出 Spark Streaming 的 内 部 处 理 机 制 流程 如 图 4.3 所 示 。 


input data batches of batches of 
stream Spark input data Spark | processed data 
pi) Streaming |C] > Engine CI > 


4.3 Spark Streaming 的 内 部 处 理 机 制 流程 图 
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对 DStream 的 操作 会 对 应 到 DStream 底层 的 RDD 序列 的 操作 ， 内 部 的 处 理 机 制 可 以 用 
图 4.4 描述 。 


RDD @time1 RDD@time2 RDD@time3 RDD @ time 4 


Ped from Ed from ud from Rd from 
DStream - 
time Ped tol time 1 to Ed time ud to3 time Rd to4 


图 4.4  DStream 内 部 的 处 理 机 制 


作用 在 DStream 上 的 API， 在 内 部 ， 实 际 上 是 作用 到 这 个 RDD 序列 上 。 


KE Spark Streaming 基础 概念 


为 了 更 好 地 理解 Spark Streaming 子 框架 的 处 理 机 制 ， 先 简单 描述 下 相关 的 基础 概念 。 

1. 离散 流 (Discretized Stream, DStream) : 这 是 Spark Streaming 对 内 部 持续 的 实时 数据 流 的 
抽象 描述 ， 即 我 们 处 理 的 一 个 实时 数据 流 ， 在 Spark Streaming 中 对 应 于 一 个 DStream 实例 。 

2. 批 数 据 (batch data) : 这 是 化 整 为 零 的 第 一 步 ， 将 实时 流 数据 以 时 间 片 为 单位 进行 分 
批 ， 将 流 处 理 转 化 为 时 间 片 数据 的 批 处 理 。 随 着 持续 时 间 的 推移 ， 这 些 处 理 结 果 就 形成 了 对 
应 的 结果 数据 流 了 

3. 时 间 片 或 批 处 理 时 间 间 隔 (batch interval): 这 是 人 为 地 对 流 数据 进行 定量 的 标准 ， 
以 时 间 片 作为 拆 分 流 数据 的 依据 。 一 个 时 间 片 的 数据 对 应 一 个 RDD 实例 。 

4. 窗口 长 度 (window length) : 一 个 窗口 覆盖 的 流 数 据 的 时 间 长 度 。 必 须 是 批 处 理 时 间 
间隔 的 倍数 。 

5. 滑动 时 间 间 隔 : 前 一 个 窗口 到 后 一 个 窗口 所 经 过 的 时 间 长 度 。 必 须 是 批 处 理 时 间 间 
隔 的 倍数 。 

6. input DStream; 一 个 input DStream 是 一 个 特殊 的 DStream， 将 Spark Streaming 连接 到 
一 个 外 部 数据 源 来 读 取 数 据 。 

7. Receiver; 长 时 间 (可 能 7x24 小 时 ) 运行 在 Executor。 每 个 Receiver 负责 一 个 input 
DStream (例如 一 个 读 取 Kafka 消息 的 输入 流 ) 。 每 个 Receiver， 加 上 input DStream 会 占用 一 


个 core/slot., 
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作为 一 个 企业 级 的 实时 流 处 理应 用 ， 如 果 缺 乏 与 诸如 Kafka 或 Flume 等 进行 整合 的 话 ， 
这 种 大 数据 流 处 理应 用 可 以 说 是 不 完整 的 。 

本 节 以 Spark Streaming 的 外 部 数据 源 ，Kafka 和 Flume 进行 案例 实践 与 分 析 ， 建 立 接 入 
外 部 数据 源 的 基础 案例 之 后 ， 可 以 在 数据 的 处 理 上 使 用 Spark Streaming 或 RDD 提供 的 高 层 
次 API 对 数据 进行 业务 相关 的 处 理 。 

构建 Spark Streaming 应 用 程序 和 开发 一 个 Spark 的 应 用 程序 一 样 ， 需 要 依赖 于 Spark 
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Streaming 的 jar 包 ， 下 面 给 出 构建 Spark Streaming 应 用 程序 的 三 种 方式 。 
1. 基于 SBT 进行 构建 
需要 在 对 应 的 构建 文件 中 添加 依赖 : 


libraryDependencies += " org. apache. spark" 96 "spark — streaming 2. 10" % "1.3.0" 


2. 基于 Maven 进行 构建 
需要 在 对 应 的 构建 文件 中 添加 依赖 : 


< dependency > 

< groupld > org. apache. spark < /groupld > 

< artifactId > spark — streaming 2. 10 < /artifactld > 
< version > 1. 3. 0 « / version > 

« / dependency > 


3. 使 用 IDEA 进行 构建 

通过 IDEA 添加 Libraries ， 这 部 分 的 详细 操作 可 以 参考 章节 2. 4. 2 基于 IDEA 构建 Spark 
应 用 程序 的 案例 部 分 。 在 后 面 的 TCP 数据 源 案例 与 解析 部 分 ， 也 会 给 出 添加 Spark 部 署 的 全 
部 lib 下 的 jar 包 的 案例 。 

说 明 : 由 于 SBT 和 Maven 的 构建 方式 类 似 ， 后续 将 基于 SBT Fo IDEA 给 出 基础 的 应 用 程序 构建 案例 


处 理 TCP 数据 源 的 案例 与 解析 


一 、 准 备 工程 ， 并 构建 测试 类 

(一 ) 基于 IDEA 构建 应 用 程序 

在 第 2 章 构建 的 工程 基础 上 ， 参 考 章节 2.4.2 基于 IDEA 构建 Spark 应 用 程序 的 实例 部 
分 ,继续 添加 依赖 包 ， 如 图 4.5 所 示 。 


Ji TestProjectide - [E:\bd\project\TestProjectide] - C:\Users\lenovo\,ivy2\ca 


Navigate Code Analyze Refactor Build Run T 


HelloSpark v | p 


Impo ect... 


@ ShuffledRDD.scala 
New... Alt+Insert ?^'P @ RDD.scala 


© Open... 
Reopen Project > 


Close Project 
9 Settings... trl- Alt-- S 


E: Project Structure... Ctrl+Alt+Shift+S 
Other Settings 


Import Module... 


Export to Eclipse... 


图 4.5 IDEA 中 的 Project Structure… 选 项 


在 IDEA 中 添加 依赖 包 ， 如 图 4.6 所 示 。 
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4.6 IDEA 中 添加 的 依赖 包 


这 里 我 们 基于 examples 提供 的 NetworkWordCount 类 来 实践 TCP 流 数据 的 处 理 ， 相 应 的 ， 
为 Spark - examples - 1. 3. 0 — hadoop2. 4. 0. jar 添加 源码 关联 ， 查 找 examples 中 的 Network- 
WordCount 类 ， 查 找 结 果 如 图 4.7 所 示 。 


Enter file name: 


Q networkword 


bd\spark-1.3.0-bin-hadoop2. 4\lib\spark-examples-1.3.0-hadoop?. 4.0. jar! \org\ apache \spark\examples\streaming) 


4.7 IDEA 中 查找 NetworkWordCount 类 


构建 自己 的 package, 447J stream, TE scala 目录 下 ， 单 击 右键 打开 上 下 文 菜单 ， 依 次 选 
FE New 一 Package 命令 ， 操 作 步 又 如 图 4.8 所 示 。 


v EKI 


qm did \, "du w 
fonn 一 @ Doubl 
) Jav 


tide [tectnrniactidal (F 


Ctrl+X 
crise B File 
Ctrl+Shift+C E Package 


Ctrl - Alt Shift C 


Ctrl+V 
Alt+F7 
Ctrl+Shift+F 
Ctrl+Shift+R 


图 4.8 IDEA 中 添加 package 


输入 stream 作为 package 名 ， 单 击 OK 按钮 ， 如 图 4. 9 所 示 。 

构建 package 后 的 目录 结构 如 图 4. 10 所 示 。 

目录 结构 中 ， 在 stream 上 单 击 右键 ， 在 弹出 窗口 中 创建 一 个 名 为 NetworkWordCount 的 
对 象 ， 如 图 4. 11 所 示 。 

点 击 OK 按钮 ， 复 制 代 码 ， 如 图 4. 12 所 示 。 
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- Enter new package name: 


steam 


Cancel 


图 4.9 IDEA 中 设置 添加 的 package 名 称 


EH Project v eo*-|!5-yv 
v Eg TestProjectide [testprojectide] (E:\bd 
> D idea 
[m out 
project [testprojectide-build] 
四 src 


v [main 


m; 3l Create New Scala Clas 
java - 


Ez resources Name: | NetworkWordCount 
C] scala 
> [stream 

[c Hellospark 

Q HellpsparkMaster 


图 4.10 IDEA 中 构建 package 后 的 目录 结构 图 4.11 IDEA 中 创建 一 个 NetworkWordCount 对 象 


Cancel 


| - | m scala\package.sc [2] streaming\N VordCount.s 
e [testprojectide] (E:\b : à @ DoubleRDDFunctions.scala 


[testprojectide-build] 


图 4.12 IDEA 中 复制 NetworkWordCount 对 象 的 代码 


构建 应 用 程序 的 jar 包 ， 如 图 4. 13 所 示 。 这 里 的 Artifacts 参见 章节 2.4.2 基于 IDEA f 
建 Spark 应 用 程序 的 实例 部 分 。 

查看 构建 的 jar 包 ， 可 以 看 到 已 经 包含 了 NetworkWordCount 类 了 ， 包 含 内 容 如 图 4. 14 
所 示 。 

可 以 通过 WinRAR 等 解压 工具 打开 jar 包 进 行 查 看 ， 也 可 以 在 命令 行 中 使 用 jar 命令 来 
解压 查看 ， 使 用 方法 和 tar 类 似 ， 上 具体 可 以 查看 命令 的 帮助 信息 。 


Build Artifacts... 


图 4.13 IDEA 中 构建 应 用 程序 的 jar 包 


3 testprojectide jar - WinRAR . | t 


添加 ES 


__| NetworkWordCount$$anonfun$2.class 
L| NetworkWordCount$$anonfun$3.class 

|_| NetworkWordCount$.class 

__| NetworkWordCount.class 


PRI 


4.14 查看 构建 的 jar 包 的 类 


(二 ) 基于 SBT 构建 应 用 程序 
在 build. sbt 文件 中 添加 : 
libraryDependencies += "org apache. Spark" 9696 "Spark — streaming" 96 "1.3.0" 

注意 : 这 里 添加 依赖 的 语法 和 前 面 有 点 差异 ， 使 用 的 “%%”， 同 时 不 需要 指定 Scala 版 本 ， 这 在 比 
较 新 的 SBT 版 本 中 才 支 持 ， 具 体 可 以 参考 SBT 官方 网 站 。 

打开 终端 ， 如 IDEA 中 的 终端 Terminal (也 可 以 打开 Windows FAY CMD 窗口 ) ， 输 入 命 
& “sbt package”， 具 体操 作 如 图 4.15 所 示 。 

编译 成 功 的 输出 信息 如 图 4. 16 所 示 。 

由 于 当前 使 用 的 Maven 仓库 中 没有 对 应 的 Spark - examples 的 1.3 版 本 的 jar 包 ， 如 
图 4. 17 所 示 。 

在 SBT 编译 前 修改 代码 ， 注 释 掉 //StreamingExamples. setStreamingLogLevels( ) ， 或 将 自 
己 编译 得 到 的 jar 包 放 入 本 地 仓库 中 (可 以 在 编译 时 加 install) ,或 者 直接 将 Spark 部 署 包 中 
的 Spark — examples — 1. 3. 0 — hadoop2. 4. 0. jar 复制 到 本 地 仓库 中 。SBT 打包 应 用 程序 可 以 参 
考 章 节 2.4.1 基于 SBT FÆ Spark 应 用 程序 的 实例 部 分 。 

这 里 使 用 IDEA 方式 构建 应 用 程序 ， 手动 将 依赖 的 jar 包 导 入 IDEA 中 ， 然 后 构建 出 应 用 


Terminal 


| E:\bd\pro 
x [info] Los al plugir om C lenovo. sbt \0. 13\plugins 


[info] Loading p t definition from E: \bd\project \TestP 
[info t ent tIde (in build fil 
[info] Updat 
[info] 

[info] 


W- 2: Favorites 


图 4.15 sbt package 方式 构建 jar £3 


Terminal 
[info] 


P [inf 


completed 2015-4-12 0:15:57 


de É | 


图 4. 16 sbt package 方式 构建 jar HJARA [f 


€ > Q |D repol.maven.org/maven2/org/apache/spark/spark-examples_2.10/ 
TER D 编程 语言 O 数据 处 理 (7]1:9x* O Tools O 项 目 . 版 本 harli 博客 (© others C] 网 站 CJ Work 站 Bigdata github/ap 


Index of /maven2/org/apache/spark/spark-examples 2. 10/ 


D. 9. ü-incubat inj 31-Jan-2014 06:05 5 
0.9. 1/ 08-Apr-2014 02:50 = 
0.9.2/ 23-Jul-2014 02:54 e 
1.0. 0/ 29-May-2014 22:43 = 
1.0. 1/ 11-Jul-2014 18:56 = 
1.0. 2/ D4-hug-2014 23:11 7 
1.1.0/ 08-Sep-2014 01:04 - 
1.1.1/ 01-Dec-2014 20:36 = 
maven-met adat a. xml Ol-Dec-2014 20:36 570 
maven-met adat a. xml. md5 Di-Dec-2014 20:36 32 
maven-met adat a. xml. shal Ol-Dec-2014 20:36 40 


图 4.17 maven 仓库 中 jar 包 信息 


程序 的 jar 包 ，StreamingExamples. setStreamingLogLevels( ) 这 一 行 代码 在 实际 测试 过 程 中 并 不 
能 去 除 日 志 信息 ， 所 以 暂时 使 用 以 下 代码 来 替代 〈 可 通过 日 志 的 配置 文件 进行 修改 ， 但 不 
推荐 在 生产 环境 中 去 除 INFO 级 别 的 日 志 


import org. apache. log4j. | Level, Logger} 
Logger. getLogger( " org. apache. spark" ). setLevel( Level. WARN) 
Logger. getLogger( " org. apache. spark. sql" ). setLevel( Level. WARN ) 
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Logger. getLogger( " org. apache. spark. streaming" ). setLevel( Level. WARN) 


最 终 的 应 用 程序 NetworkWordCount 的 代码 如 下 


objectNetworkWordCount | 
def main( args; Array[ String] ) | 
if (args. length < 2) | 
System. err. println( " Usage : Network WordCount < hostname > < port >" ) 
System. exit(1) 
| 
StreamingExamples. setStreamingLogLevels( ) 
import org. apache. log4j. | Level , Logger} 
Logger. getLogger( " org. apache. spark" ). setLevel( Level. WARN) 
Logger. getLogger( " org. apache. spark. sql" ). setLevel( Level. WARN) 
Logger. getLogger( " org. apache. spark. streaming" ). setLevel( Level. WARN) 
// 设 置 批 数据 的 时 间 片 大 小 为 1s 
valsparkConf = new SparkConf( ). setAppName(" NetworkWordCount" ) 
val ssc = new StreamingContext( sparkConf, Seconds ( 1) ) 
// 使 用 输入 的 host 和 port 构建 Socket 流 , 并 设置 存储 级 别 
// 构 建 后 得 到 DStream 实例 


val lines = ssc. socketTextStream( args(0) ,args(1). tolnt ,StorageLevel. MEMORY. AND. DISK SER) 


//DStream 提供 和 RDD 类 似 的 high — level 的 api 对 内 部 RDD 序列 进行 处 理 
/下 面 的 处 理 方式 和 RDD 的 单词 统计 是 一 样 的 
val words = lines. flatMap(_. split(" ")) 


val wordCounts = words. map( x => (x,1) ). reduceByKey(_ +_) 
wordCounts. print( ) 
// 最 后 需要 调用 start 来 正式 启动 流 处 理 


ssc. start( ) 


ssc. awaitTermination( ) 
} 
} 


任何 作用 在 DStream 实例 上 的 操作 都 会 转换 为 对 其 底层 RDD 序列 的 操作 ， 比 如 ， 代 码 


中 flatMap 方法 对 应 的 DStream 内 部 操作 如 图 4. 18 所 示 。 


lines ..] lines from = 
DStream time 0 to 1 
flat Map 
operation 
words __ | words from | _ 
DStream time 0 to 1 


Al 4.18 DStream 的 flatMap 方法 对 应 的 内 部 操作 


其 中 ， 一 个 框 对 应 一 个 批 数据 ， 即 一 个 RDD 实例 。 

二 、 开 始 测试 

这 里 使 用 cluster01 的 集群 ，cluster01 对 应 部 署 了 全 部 进程 ， 除 了 集群 设备 较 少 之 外 ， 
他 操作 和 多 节点 集群 是 一 样 的 。 


H 


Zx 
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(一 ) Standalone 模式 提交 
启动 Spark 集群 后 ， 在 $Spark_HOME 路 径 下 输入 : 


—— master spark: //cluster01: 7077 \ 


—— class stream. Network WordCount \ 


[ harli@ cluster01 spark | $. /bin/spark - submit — —— exector - memory 1g © 


—- jars. /lib/spark — examples — 1. 3. 0 — hadoop2. 4. 0. jar. . /applitions/testprojectide. jar cluster01 
9999 


根据 NetworkWordCount 应 用 的 使 用 说 明 “ Usage : NetworkWordCount < hostname > < port >”, 
在 spark - submit 的 最 后 输入 对 应 的 cluster01 9999 , 作为 应 用 程序 的 参数 。 

需要 注意 的 是 ， 由 于 NetworkWordCount 代码 中 使 用 了 StreamingExamples 类 ， 因 此 需要 
将 依赖 的 . /lib/spark - examples - 1. 3. 0 — hadoop2. 4. 0. jar JE —— jars 参数 传人 ， 和 否则 Executor 
执行 时 会 找 不 到 StreamingExamples 类 ， 错 误 信息 如 下 : 


Spark assembly has been built with Hive ,includingDatanucleus jars on classpath 


Exception in thread " 


main" java. lang. NoClassDefFoundError ; org/apache/spark/examples/streaming/ 
StreamingExamples $ 

at stream. DirectKafkaWordCount $. main( KafkaDirectApp. scala :58 ) 

at stream. DirectKafkaWordCount. main( KafkaDirectApp. scala) 

at sun. reflect. NativeMethodAccessorImpl. invoke0( Native Method ) 

at sun. reflect. NativeMethodAccessorImpl. invoke ( NativeMethodAccessorImpl. java :57 ) 

at sun. reflect. DelegatingMethodAccessorImpl. invoke( DelegatingMethodAccessorImpl. java:43 ) 

at java. lang. reflect. Method. invoke( Method. java :601 ) 

at org. apache. spark. deploy. SparkSubmit $. org $apache $spark $deploy $SparkSubmit $$run- 
Main( SparkSubmit. scala :569 ) 

at org. apache. spark. deploy. SparkSubmit $. doRunMain $1 ( SparkSubmit. scala : 166 ) 

at org. apache. spark. deploy. SparkSubmit $. submit ( SparkSubmit. scala ;189 ) 

at org. apache. spark. deploy. SparkSubmit $. main( SparkSubmit. scala ;110) 

at org. apache. spark. deploy. SparkSubmit. main( SparkSubmit. scala) 
Caused by: java. lang. ClassNotFoundException : 
org. apache. spark. examples. streaming. StreamingExamples $ 

at java. net. URLClassLoader $1. run( URLClassLoader. java : 366 ) 

at java. net. URLClassLoader $1. run( URLClassLoader. java ;355 ) 

at java. security. AccessController. doPrivileged ( Native Method) 

at java. net. URLClassLoader. findClass ( URLClassLoader. java :354 ) 

at java. lang. ClassLoader. loadClass( ClassLoader. java :423) 

at java. lang. ClassLoader. loadClass( ClassLoader. java :356) 


注意 : 这 里 使 用 spark — examples — 1. 3. 0 - hadoop2. 4. 0. jar 主要 是 为 了 测试 在 不 同 集群 模式 下 ， 用 
—- jars 添加 依赖 包 的 有 效 性 (集群 中 没有 将 Spark 的 lib 放 到 Hadoop 的 CLASSPATH 路 径 下 ) 。 

查看 界面 ， 如 图 4. 19 所 示 。 由 于 当前 虚拟 机 设置 了 2 个 内 核 ， 因 此 该 应 用 占用 的 内 核 
数 为 2， 刚 好 可 以 分 配给 Executor 和 接收 流 的 Receiver, 

为 了 方便 测试 ， 接 下 来 将 cluster01 的 虚拟 机 内 核 数 改 成 4。 

打开 另 一 个 终端 ， 输 入 以 下 命令 启动 Netcat: 
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3* Applications Places fox Web Browser +) 8 satos:z1 4 
Application: NetworkWordCount - Mozilla Firefox 
File Edit View History Bookmarks Tools Help 
| 3 Application: NetworkWordC... 3€ [a Problem loading page x E | 


Qo | @ ctustero1:80380/app/?appid=app-20150411045229-0000 «| B~ Google [4 


Spak i30 Application: NetworkWordCount 


ID: app-20150411045229-0000 

Name: NetworkWordCount 

User: harli 

Cores: Unlimited (2 granted) 

Executor Memory: 1024.0 MB 

Submit Date: Sat Apr 11 04:52:29 PDT 2015 
State: RUNNING 

Application Detail UI 


Executor Summary 


ExecutoriD Worker Cores Memory State Logs 
0 worker-20150411044948-cluster01-46878 2 1024 LOADING stdout stderr 


图 4. 19 Spark 应 用 程序 界面 信息 
[ harli@ clustei01Spark | $nc — Ik 9999 


然后 将 $Spark_HOME 路 径 下 的 README. md 内 容 复 制 到 该 终端 界面 上 。 
切换 到 Spark - submit 的 终端 ， 可 以 看 到 如 下 输出 : 


Time:1428754186000 ms 


( package,1) 
(this,1) 

( Because,1) 
( Python,2) 
( cluster. ,1) 
(its,1) 
C[run,1) 
(YARN, ,1) 
( general ,2) 
(have ,1) 


Time ; 1428754187000 ms 


Time ; 1428754188000 ms 


Time ; 1428754189000 ms 


(configure , 1 ) 
(how,1) 
( ,2) 
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( documentation ,1 ) 

(on,1) 

(to,1) 

(Spark. ,1) 

(in,1) C» 
( online, 1) 

(for,1) 


可 以 在 Time 处 看 到 每 隔 1s 提交 一 次 job 进行 单词 统计 ， 这 里 还 有 统计 时 没有 收 到 数据 
但 也 提交 job 的 ， 后 续 会 在 案例 中 给 出 处 理 空 RDD 的 方法 。 
( Xam 模式 提交 交 


查询 : 


[ harli@ cluster01 Spark | $jps 
13645DataNode 

23702SparkSubmit 

22925 CoarseGrainedExecutorBackend 
21744 Worker 
13812SecondaryNameNode 
17705RunJar 

23832 Jps 

21524 Master 

13513NameNode 


使 用 kill 命令 终止 SparkSubmit 进程 : 
[ harli@ cluster01Spark | $kill -9 23702 


这 里 使 用 Client 部 署 模式 提交 ， 可 以 不 用 【Ctrl +C】 组 合 键 ， 而 是 直接 在 另 一 个 终端 
上 查询 pid 然后 使 用 kill 命令 关闭 ; 


ps — aux | grep SparkSubmit 
kill -9 $pid —— //pid 为 ps 后 的 进程 ID 值 


启动 Yar 服务 : 


[ harli@ clustei01 hadoop ] $. /sbin/start — yarn. sh 
starting yarn daemons 
startingresourcemanager ,logging to /home/harli/cluster. 13/hadoop/logs/yarn — harli — resourcemanager 


— clusterO1. out 
cluster01 : startingnodemanager, logging to /home/harli/cluster. 13/hadoop/logs/yarn — harli — nodeman- 
ager — cluster01. out 

$i|$Spark. HOME 路 径 下 ， 再 次 提交 命令 : 
./bin/spark — submit — —— executor ~ memory lg — — master yarn —— deploy — mode client — — class 
stream. NetworkWordCount — — jars. /lib/spark — examples — 1. 3. 0 — hadoop2. 4. 0. jar. . /applitions/ 
testprojectide. jar cluster01 9999 


大 数据 实例 开发 教程 


注意 : 由 于 Hadoop 上 也 没有 部 署 spark — examples -1.3. 0 -hadoop2.4.0.jar， 因 此 需要 使 --jars 参数 
进行 上 传 。 

在 nc 终端 继续 将 README. md 文件 内 容 复制 进去 ， 再 次 看 到 NetworkWordCount 应 用 输 
出 单词 统计 信息 : 


(detailed ,1 ) 
(CraphX ,1) 

( package,1) 
(this,1) 

( stream,1) 

(is ,3) 

(its ,1) 

( general ,2) 

( pre — built, 1) 
(built, 1) 


打开 Hadoop AY ResourceManager 监控 界面 ， 查 看 应 用 提交 结果 ， 如 图 4.20 所 示 。 


{Application: NetworkWordC... X [c All Applications x | +| 
° | 图 cluster01:8088/cluster ¥ ©) IB Googie Q 2 & 
: All Applicati 
(o hnadoop pplications 
v Cluster Cluster Metrics 
About Apps Apps Apps Apps Containers Memory Memory Memory  VCores VCores  VCores | Active Decommissioned | 
Nodes Submitted Pending Running Completed Running Used Total Reserved Used Total | Reserved | Nodes Nodes N 
Applications. | 1 H 0 0 0 0B 8 GB 0B 0 8 0 1 o o 
NEW 
[show 20 »J entries Searct 
SUBMITTED €—— ÍT 
ACCEPTED User = Application Queue StartTime FinishTime ^ " X 
RUNNING ID z Name $ Type < s Es 3 State ¢ FinalStatus > 
EN application 1428755808048 0001 hari ^ NetworkWordCount SPARK defaut — SatllApr N/A ACCEPTED UNDEFINED 
2015 
KILLED 05:38:55 
Scheduler AM POT 
» Tools [showing 1 to 1 of 1 entries Fil 


图 4.20 HadoopResourceManager 监控 界面 的 应 用 程序 信息 


ResourceManager 监控 界面 地 址 为 : http://cluster01: 8088， 其 中 cluster01 是 启动 
ResourceManager 进程 的 节点 。 
切换 成 yarn - cluster 方式 提交 时 ， 查 看 Hadoop 界面 ， 如 图 4.21 所 示 。 


E (e :8088/cluster/apps ~g] [Hv Google md 


人 Eco All Applications e 


Cluster Metrics 


Apps Apps Apps Apps Containers Memory Memory Memory | VCores VCores WCores Active Decommissioned ^ Lost Unhealthy Rebooted 
Submitted Pending Running Completed Running Used Total Reserved | Used Total Reserved | Nodes Nodes Ni 
1 0 1 0 1 1GB 24 GB 0B 1 24 0 à Q Q 9 Q | 
‘Show 20 ~ Jentries | -— mM —Ü! J 
iD EE Name o | Appiation Queue StartTime | FinishTime State s | Finalstatus ¢ Progress ¢ Tracking UI ¢ 
Application 1439904709241 0003 harii stream.NetworkWordCount-jars SPARK default Tue 18 Aug N/A GD NDEFINED [| UNASSIGNED 
2015 
06:38:21 
AM PDT 
Showing lto 1 of 1 entries —— Dn oy First Previous 1 Next Last. 


4.21 HadoopResourceManager 监控 界面 的 AM 信息 
提交 成 功 ， 单 击 进 入 应 用 后 ， 如 图 4. 22 所 示 出 现 界面 。 


AXE A EA d. 第 4 章 Spark Streaming 实践 案例 与 解析 


[O Spark Master at spark//clus,... X | C} NetworkWordCount - Spark... x |[Jhttpi/clust..5808048.0002 X | di Add-ons Manager x|*| 
Ge | @ clusterO1:8088/proxy/application.1428755808048.0004/ 
Spaik® RA Jobs Stages Storage Environment Executors Streaming 
Spark Jobs (?) 


Total Duration: !.5 min 
Scheduling Mode: FIFO 


Active Jobs: 1 
Completed Jobs: 155 
Active Jobs (1) 
Job id Description Submitted Duration Stages: Succeeded/Total Ta 
5 start at NetworkWordCount.scala:37 2015/04/11 06:06:49 1.2 min on | 


4.22 Spark 的 job 信息 


继续 查看 Executors 信息 ， 如 图 4. 23 所 示 。 
** Applications Places E Web Browser 


NetworkWordCount - Executors (3) - Mozilla Firefox 
File Edit View History Bookmarks Tools Help 
[E2 Spark Master at sparki//clus... 3€ |! NetworkWordCount - Execu... x [Cihttpu/ctust..5808043.0002 2 [afb Add-ons Manager — x | +) 


S| @ cluster01:8088/proxy/application- 1428755808048 _0004/executors/ 
Spark’ 125 Jobs Stages Storage Environment Executors Streaming 


Executors (3) 


Memory: 0.0 B Used (1306.3 MB Total) 


Disk: 0.0 B Used 

Executor RDD Memory Disk Active Failed Complete Total Task Shuffle ‘Shuffle Thread 

ID Address Blocks Used Used Tasks Tasks Tasks Tasks Time Input Read Write Logs Dump 

1 cluster01:35285 0 0.08/530.3 0.08 1 0 30 31 23s 00B 188108  30KB stdout Thread 
MB stderr Dump 

2 cluster01:53707 0 0.087530.3 0.08 0 ü 874 674 1772s 0.08 153908  53KB stdout Thread 
MB siderr Dump 

«driver» cluster01:39836 0 0,08/24577 008 0 o 0 0 Oms 00B 00B 0.08 Thread 
MB Dump 


图 4. 23 Spark 的 Executors 信息 


当前 虚拟 机 的 内 核 数 为 4，Yam 模式 下 ， 提 交 时 Executor 的 个 数 默认 为 2， 分配 内 核 为 
， 因 此 总 的 使 用 内 核 数 为 2， 对 应 加 一 个 ApplicationMaster， 即 图 中 的 driver， 一 共 对 应 3 个 
n à 
在 图 4. 23 中 可 看 到 在 Hadoop 界面 对 应 的 driver 中 没有 Logs 信息 stdout 和 stderr， 不 过 
可 以 在 终端 打开 该 应 用 下 的 日 志 。 查 看 driver 的 日 志 输 出 信息 ， 和 我 们 用 Client 方式 提交 时 
的 界面 信息 是 一 样 的 。 
当前 运行 的 driver 程序 日 志 所 在 路 径 为 : 
/home/ harli/ cluster/ hadoop/ logs/ userlogs/application _ 1428755808048 _ 0004/container _ 
1428755808048_0004_01_000001 
logs 目录 位 于 执行 driver 的 节点 上 (Æ Addresse 列 可 以 看 到 当前 执行 的 节点 ) ， 其 中 ， 
application_1428755808048_0004 对 应 应 用 程序 的 ID。 
对 应 在 Yarn 模式 下 执行 的 应 用 程序 ， 可 以 用 以 下 命令 关闭 ， 相 关 的 几 个 进程 也 会 被 
XH. 
hadoop job — kill application, 1428755808048 0004 
上 面 是 旧 的 版 本 所 使 用 的 命令 ， 也 可 以 用 较 新 版 本 的 命令 ， 如 下 所 示 : 
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yarn application — kill application_1428755808048_0004 


(三 ) Yarn 模式 提交 补充 案例 

由 于 前 面 yarn - cluster 提交 的 案例 是 在 单机 上 模拟 集群 进行 的 ， 这 时 候 依赖 的 第 三 方 包 
在 集群 中 都 是 相同 位 置 。 同 时 ， 针 对 第 三 方 包 的 依赖 具体 过 程 的 疑问 ， 如 同时 提交 出 现 类 找 
不 到 等 问题 ， 这 里 为 了 进一步 详细 描述 ， 用 最 新 的 集群 (在 基于 Tachyon 实践 案例 与 解析 基 
础 上 部 署 的 新 的 集群 一 一 3 个 节点 上 ) ， 重 新 给 出 案例 ， 并 在 案例 中 给 出 详细 的 包 的 上 传 、 
下 载 的 路 径 信息 。 

首先 ， 启 动 Yam 服务 : 


[ harli@ cluster04 hadoop ] $. /sbin/start — yarn. sh 


starting yarn daemons 


startingresourcemanager ,logging to /home/harli/cluster. 13/hadoop/logs/yarn — harli — resourcemanager 
— cluster04. out 

cluster06 : startingnodemanager , logging to /home/harli/cluster. 13/hadoop/logs/yarn — harli - nodeman- 
ager — cluster06. out 

cluster05 : startingnodemanager , logging to /home/harli/cluster. 13/hadoop/logs/yarn — harli - nodeman- 
ager — cluster05. out 

cluster04 ; startingnodemanager , logging to /home/harli/cluster_13/hadoop/logs/yarn — harli - nodeman- 


ager — cluster04. out 
启动 命令 : 


. /bin/Spark - submit | —— executor — memory lg V 
—- master yarn - cluster ^ 

—- num - executors 3 \ 

—- class stream. NetworkWordCount V 


—- jars. /Spark - examples — 1. 3. 0 — hadoop2. 6. 0. jar. . /applications/testprojectide. jar cluster04 9999 


这 里 以 yarn - cluster 模式 提交 ， 同 时 ， 启 动 了 3 个 Executor, 
在 男 一 个 终端 启动 nc， 并 输入 要 统计 的 数据 ; 


[ harli@ cluster04Spark | $nc - lk 9999 

15/05/09 11:39:16 INFO Client: Application report for application 1431196702641 0001 (state; RUN- 
NING) 
15/05/09 11:39:17 INFO Client: Application report for application 1431196702641 0001 (state; RUN- 
NING) 
15/05/09 11:39: 18 INFO Client; Application report for application. 1431196702641 0001 (state; RUN- 
NING) 
15/05/09 11:39: 19 INFO Client; Application report for application, 1431196702641 0001 (state; RUN- 
NING) 
15/05/09 11:39:20 INFO Client: Application report for application 1431196702641 0001 (state; RUN- 
NING) 
15/05/09 11:39:21 INFO Client: Application report for application 1431196702641 0001 (state; RUN- 
NING) 
15/05/09 11:39:22 INFO Client; Application report for application. 1431196702641 0001 (state; RUN- 
NING) 
15/05/09 11:39:23 INFO Client; Application report for application, 1431196702641 0001 (state; RUN- 
NING) 
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15/05/09 11:39:24 INFO Client: Application report for application 1431196702641 0001 (state; RUN- 
NING) 
15/05/09 11:39:25 INFO Client: Application report for application 1431196702641 0001 (state; RUN- 
NING) 
15/05/09 11:39:26 INFO Client: Application report for application 1431196702641 0001 (state; RUN- 
NING) 
15/05/09 11:39:27 INFO Client: Application report for application 1431196702641 0001 (state; RUN- 
NING) 


启动 TCP 流 处 理 命 令 : 


ti 


[ harli@ cluster04 spark] $ . /bin/spark — submit — — — executor - memory lg —— master yarn — cluster 
—- num - executors 3 — — class stream. NetworkWordCount - — jars. /spark — examples - 1.3. 0 — ha- 
doop2. 6. 0. jar. . /applications/testprojectide. jar cluster04 9999 

Spark assembly has been built with Hive, includingDatanucleus jars on classpath 

15/05/09 11:38:53 WARNNativeCodeLoader; Unable to load native — hadoop library for your platform... 
using builtin — java classes where applicable 

15/05/09 11:38:53 INFORMProxy ; Connecting to ResourceManager at cluster04/192. 168. 242. 135: 8032 
15/05/09 11:38:53 INFO Client; Requesting a new application from cluster with 3 NodeManagers 
15/05/09 11:38: 53 INFO Client; Verifying our application has not requested more than the maximum 
memory capability of the cluster (8192 MB per container) 

15/05/09 11:38: 53 INFO Client; Will allocate AM container, with 896 MB memory including 384 MB 
overhead 

15/05/09 11:38:53 INFO Client;Setting up container launch context for our AM 

15/05/09 11:38:53 INFO Client; Preparing resources for our AM container 

15/05/09 11:38:55 INFO Client; Uploading resource file: /home/harli/cluster 13/spark/lib/spark 
— assembly - 1. 3. 0 — hadoop2. 6. 0. jar -> hdfs: //cluster04: 9000/user/harli/. sparkStaging/appli- 
cation 1431196702641 0001/spark — assembly — 1. 3. 0 — hadoop2. 6. 0. jar 

15/05/09 11: 38: 58 INFO Client; Uploading resource file: /home/harli/cluster 13/applications/ 
testprojectide. jar — hdfs: //cluster04: 9000/user/harli/. sparkStaging/application 1431196702641 
_0001/testprojectide. jar 

15/05/09 11:38:58 INFO Client; Uploading resource file: /home/harli/cluster_13/spark/spark — exam- 
ples — 1.3.0 - hadoop2. 6. 0. jar -> hdfs : //cluster04 : 9000/user/harli/. sparkStaging/ application _ 
1431196702641 0001/spark — examples - 1. 3. 0 — hadoop2. 6. 0. jar 

15/05/09 11:39:00 INFO Client: Setting up the launch environment for our AM container 


可 以 看 到 ， 在 yam - cluster 模式 提交 时 ， 会 将 依赖 的 jar 包 和 主 资源 jar 包 一 起 上 传 到 
HDFS 上 。 
查看 上 传 后 的 路 径 下 的 文件 : 


[ harli @ cluster04 spark ] $hdfs dfs — ls hdfs: //cluster04 : 9000/user/harli/. sparkStaging/ application _ 
1431196702641 0001/ 

Found 3 items 

-rw-r--r-- [hari supergroup 167828287 2015 -05 -09 11:38 hdfs: //cluster04: 9000/user/ 
harli/. sparkStaging/application 1431196702641 0001/spark — assembly - 1. 3. 0 — hadoop2. 6. 0. jar 
-rw-r--r-- [hari supergroup 114040423 2015 -05 -09 11:39 hdfs: //cluster04: 9000/user/ 
harli/. sparkStaging/application 1431196702641 0001/spark — examples - 1. 3. 0 — hadoop2. 6. 0. jar 
-rw-r--r-- [hari supergroup 96168 2015 —05 -09 11:38 hdfs: //cluster04: 9000/user/ 
harli/. sparkStaging/application 1431196702641 0001/testprojectide. jar 


e 
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可 以 看 到 文件 已 经 成 功 上 传 。 
查看 各 个 执行 节点 上 的 缓存 文件 ， 这 里 以 cluster06 节点 为 例 ， 其 包含 文件 如 下 : 


[ harli@ cluster06 Desktop ] $cd 

/home/harli/cluster/hadoop/tmp/nm - local — dir/usercache/harli/filecache 
[ harli@ cluste106 filecache | $ll — R. / 

iS: 

total 12 

drwxr — xr — x. 2 harliharli 4096 May 9 11:39 10 

drwxr — xr - x. 2 harliharli 4096 May 9 11:39 11 

drwxr — xr - x. 2 harliharli 4096 May 9 11:39 12 


./10: 
total 111368 
-r-x------ . Lharliharli 114040423 May 9 11:39 spark - examples - 1. 3. 0 — hadoop2. 6. 0. jar 


./11: 


-r -Xx 一 一 一 一 一 一 - ]harliharli 167828287 May 9 11:39 spark - assembly — 1. 3. 0 — hadoop2.6.0. jar 


./12: 
total 96 
Seog < 1harliharli 96168 May 9 11:39 testprojectide. jar 
可 以 看 到 ， 执 行 节点 已 经 成 功 将 所 依赖 的 jar 包 下 载 到 NodeManager 的 本 地 路 径 下 ， 为 
应 用 提供 依赖 jar 包 。 
其 中 ，nm - local - dir 是 NodeManager 执行 应 用 时 的 local 目录 ， 执 行 时 应 该 从 HDFS 上 
下 载 下 来 ， 并 存放 到 该 目录 下 。 
给 出 不 同 于 前 面 的 另 一 种 查看 输出 日 志 的 方法 。 
1) 进入 RM 节点 的 Web Interface 界面 (http: //cluster04: 8088/cluster), ， 如 图 4. 24 所 示 。 


中 Namenode information X | ©) All Applications xe 
« | s |(@ am v Bj] [8 5ooo 
Nado, All Applications 
~ Cluster Cluster Metrics 
About Apps Apps Apps Apps Containers Memory Memory Memory VCores VCores VCore: 
Nodes Submitted Pending Running Completed ^ Running Used Total Reserved Used Total Reserve 
Applications 1 0 1 0 1 1GB 24GB 0B 1 24 0 
NEW 
NEW SAVING |Show 20 -|entries 
SUBMITTED ————————————————————————————————————————————————— sod 
1 ACCEPTED ID .. User ue " Appiconion Queue StartTime Finish 
RUNNING e Type 
SED [Baieauen 1421196702641 9001 eri stream.NetworkWordCount SPARK default Sat 09 N/A 
KILLED May 2015 
11:39:00 
Scheduler AM PDT 
» Tools | Showing 1 to 1 of 1 entries 


图 4.24  HadoopRM 的 应 用 信息 
2) 单 击 application_1431196702641_0001， 查 看 Application 的 具体 信息 ， 如 图 4. 25 所 示 。 
3) 单 击 cluster04: 8042 ， 查 看 Node 节点 具体 信息 ， 如 图 4. 26 所 示 。 

4) 单 击 List of Containers, AAR AMAA, WKI 4. 27 所 示 。 


»e0eeococ2525-.- PR 


ELE 


L] Namenode information 


X | C httpicluster...96702641 0001 X | < | 
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Ep 


= Cluster Application Oven 
About User: harli 
Modes | Mame: stream.NetwarkWordCount 
— Application Type: SPARK 
EW 3 5 Application Tags: 
SUBMITTED State: RUNNING 
ACCEPTED FinalStatus: UNDEFINED 
ea Started: 9-May-2015 11:39:00 
FAILED. Elapsed: Smins, 45sec 
KILLED Tracking URL: ApplicationMaster 
Scheduler Diagnostics: 
* Tools 
Application Me! 
Total Resource Preempted: <memory:0, vCores:0> 
Total Number of Non-AM Containers Preempted: 0 
Total Number of AM Containers Preempted: 0 
Resource Preempted from Current Attempt: <memory:0, vCores:0> 
Number of Non-AM Containers Preempted from Current Attempt: 0 
Aggregate Resource Allocation: 2380041 MB-seconds, 1333 vcore-seconds. 
ApplicationMaster 
Attempt Number Start Time anan Log: 
Al 4.25  HadoopRM 的 指定 应 用 的 信息 
[£3 Namenode information x [4] 


地 cluster04:3 


» ResourceManager 


| * NodeManager 


Node Information 
List of 


Applications 
List of Containers 


* Tools 


| 3 Namenode information 


Total Vmem allocated for 
Containers 

Vmem enforcement enabled 

Total Pmem allocated for Container 
Pmem enforcement enabled 


Total VCores allocated for 
Containers 


NodeHealthyStatus 
LastNodeHealthTime 
NodeHealthReport 
Node Manager Version: 


Hadoop Version: 


16.80 GB 


true 
8 GB 
true 
8 


true 
Sat May 09 11:44:25 PDT 2015 


2.6.0 from Unknown by root source checksum 7e1415f8 
2015-01-05T10:27Z 
2.6.0 from Unknown by root source checksum 18643357 
2015-01-05T10:002 


Al 4. 26 HadoopRM 的 指定 node 的 信息 


站 AI containers running on thi... X | 4 | 


和 和 [& clustero4:8042/node/allCont 


+ ResourceManager 
RM Home 


Show 20 -|entries 


Containerld 


» NodeManager 
» Tools 


Showing 1 to 2 of 2 entries 


4.27 HadoopRM 的 指定 应 用 的 容器 的 信息 


~S) E~ 


All containers running on this node 


*  ContainerSta! 


RUNNING 
RUNNING 
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5) 单 击 container_1431196702641_0001_01_000001， 查 看 容器 具体 信息 ， 如 图 4. 28 所 示 。 


(SNamenode information — — 3€]: Container container 143119... X | $ | 
和 和 [ & clusteroa-8042/modejcontainericontainer 1431196702641 0001 01 000001 v &) [Mv 


MM Ute Container container 1431196702641 0001 0: 


* ResourceManager 


RM Home ContaineriD container 1431196702641 0001 01 000001 
ContainerState RUNNING 
+ NodeManager ExitStatus N/A 
» Tools Diagnostics 
User harli 


TotalMemoryNeeded 1024 
TotalvCoresNeeded 1 


ee [mm] 


4.28  HadoopRM 的 指定 应 用 的 容器 的 日 志 信息 


PS 


6) 单 击 Link to logs, 选择 特定 日 志 AB, 如 图 4. 29 所 示 。 


| Namenode information X | C1 Logs for container 14311967... XX | = | 


@ | & clustero4:8042/modercontainer tainer 1431196702641 0001 01 000001/hat v | [Mw 


Oe adap Logs for container 1431196702641 0001 01 


~ ResourceManager 
RM Home 


» NodeManager 
» Tools 


图 4.29  HadoopRM 的 指定 应 用 的 容器 的 日 志 


7) 单 击 stdout :Total file length is 45405 bytes， 查 看 stdout H 志 人 信息， 如 图 4. 30 所 示 。 


X | 7; Logs for container 14311967.. .x [E m 


(Application, 11) 

(11:39:19,1) 

(11:39:22,1) 

(11:39:26,1) 

(11:39:20,1) 

(report,11) 

(INFO, 11) 

(11:39:17,1) 

(11:39:24,1) 

(application 1431196702641 0901,11) 


Time: 1431197244000 ms 


4.30 HadoopRM 的 指定 应 用 的 容器 的 stdout 日 志 信 息 


PS 
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可 以 看 到 ，stdout 中 已 经 成 功 输 出 在 client 模式 提交 时 的 界面 信息 。 


处 理 HDFS 文件 数据 源 的 案例 与 解析 GJ 


除了 Sockets, StreamingContext API 还 提供 了 从 其 他 基础 数据 源 创 建 DStream 实例 的 方 
法 ， 这 里 以 文件 数据 源 作为 例子 ， 解 析 文 件 流 的 处 理 ， 并 在 此 基础 上 ， 引 入 Spark SQL， 结 
合 Spark Streaming 和 Spark SQL 给 出 案例 。 

当 企业 的 数据 从 各 种 数据 源 获取 后 ， 存 人 某 个 文件 存储 系统 时 〈 一 般 使 用 HDFS ) , 
如 将 从 Flume 数据 源 收集 来 的 日 志文 件 存 人 HDFS 文件 系统 等 ， muc Eis 
理 ， 该 方法 可 以 监控 某 一 目录 下 的 创建 文件 ， 并 对 文件 进行 处 理 。 

案例 中 以 手动 构建 文件 ， 并 移入 监控 目录 来 简化 外 部 数据 源 存 人 该 目录 。 实 际 在 企业 中 
应 用 时 ， 应 该 引入 类 似 Flume 55 H GF 合 系统 负责 数据 收集 。 

这 里 换 一 种 方式 执行 应 用 ， 即 在 IDEA 中 运行 应 用 程序 ， 使 用 local 方式 运行 ， 这 种 方 

式 下 ， 可 以 方便 代码 的 调试 。 

具体 代码 如 下 : 


package stream 

import org. apache. spark. | SparkConf,SparkContext | 
import org. apache. spark. sql. SQLContext 

import org. apache. spark. streaming. dstream. DStream 


import org. apache. spark. streaming. | Seconds , StreamingContext | 


/okox 
* Created by lenovo on 2015/4/13. 
*/ 


// 这 里 使 用 lazy 加 载 的 单 件 模式 (singleton pattern) 的 方式 来 构建 SQLContext 实例 
// 可 以 避免 在 foreachRDD 中 重复 构建 
objectSQLContextSingleton | 


@ transient private var instance:SQLContext = null 


//lazy 方式 实例 化 
def getInstance( sparkContext ; SparkContext) :SQLContext = synchronized | 
if (instance == null) | 
instance = new SQLContext( sparkContext ) 
} 
instance 
} 
} 
// 样 本 类 ,用 于 构建 RDD 对 应 的 DataFrame 实例 
// 可 以 根据 实际 的 数据 格式 ,给 出 对 应 的 解析 样本 类 
case class Row( word ; String) 
object HdfsApp | 
def main( args: Array[ String] ) | 


// 减 少 控制 台 输 出 信息 
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import org. apache. log4j. | Level , Logger} 
Logger. getLogger( " org. apache. spark" ). setLevel( Level. WARN) 
Logger. getLogger( " org. apache. spark. sql" ). setLevel( Level. WARN) 
Logger. getLogger( " org. apache. spark. streaming" ). setLevel( Level. WARN) 
// 日 志文 件 监控 路 径 
val logFile = args(0) 
val conf = new SparkConf( ). setAppName( " HdfsApp" ). setMaster( "local[ 1 ]") 
val ssc = new StreamingContext( conf , Seconds ( 1) ) 
// TE streaming 的 内 部 处 理 中 ， 使 用 DataFrame ,将 读 取 到 的 文件 数据 
// 注 册 到 临时 表 中 ,并 将 表 查 询 结果 显示 到 控制 台 上 
val words; DStream| String | = ssc. textFileStream( ) 
// 这 里 使 用 foreachRDD ,针对 每 个 RDD 进行 Spark SQL 操作 
words. foreachRDD | rdd => 
if( !rdd. isEmpty() ) | 
// 获 取 SQLContext 单 例 
val sqlContext = SQLContextSingleton. getInstance( rdd. sparkContext ) 
// 代 码 中 需要 手动 添加 以 下 的 隐 式 转换 
import sqlContext. implicits. _ 
// 将 RDD 转换 为 DataFrame 
val wordsDataFrame = rdd. map( w => Row( w) ). toDF( ) 
// 将 转换 结果 注册 成 临时 表 
wordsDataFrame. registerTempTable( " words" ) 
// 对 临时 表 执 行 sql 语句 


val wordCountsDataFrame = 


sqlContext. sql( " select word , count( * ) as total from words group by word" ) 
wordCountsDataFrame. show( ) 
| 
| 
ssc. start( ) 
ssc. awaitTermination( ) 
| 
| 


打开 配置 Run 的 窗口 ， 如 图 4. 31 所 示 。 


ala\stream\HdfsApp.scala - IntelliJ IDEA 140.1. 77 1 
S ow SBI Commands Help 


Shift+F10 
Shift+F9 


Alt+Shift+F10 srja 
Alt+Shift+F9 rdC 


4.31 IDEA 的 应 用 的 Run 配置 
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进入 Run 配置 的 编辑 界面 ， 如 图 4. 32 所 示 。 


pSparkMaster 
SqlTest 


SimpleSqlParser 


图 4.32 IDEA 的 应 用 的 Run 配置 的 编辑 菜 


输入 具体 配置 信息 ， 如 图 4. 33 所 示 。 


© Run - HdfsApp 
+ mD mss Name: | HdfsApp 


v (m Application 
4 c Configuration Code C 


& SparkSubmit 


b n 


图 4.33 IDEA 的 应 用 的 Run HEE KS Z8 48:5 Tf 


其 中 ， 在 Program arguments 部 分 ， 添 加 监控 的 路 径 ， 这 里 设置 为 本 地 文件 系统 下 的 监 
HHR “E: \\bd\\spark -1.3.0 -bin - hadoop2. 4 \ \ examples \ \ sre \ \ main \ \ resources! ” , 
由 于 不 是 集群 模式 提交 ， 因 此 Main class 部 分 可 以 设置 为 当前 的 应 用 类 ， 需 要 使 用 类 的 全 
路 径 。 
单 击 窗口 的 Run 按钮 ， 启 动 流 处 理 。 然 后 ， 手 动 将 文件 添加 到 监控 目录 下 。 
注意 : 

l. 监控 目录 下 的 文件 应 该 有 一 样 的 数据 格式 ， 避 免 在 内 部 解析 时 报错 。 

2. 文件 必须 是 在 监控 目录 下 创建 ， 可 以 通过 原子 性 的 移动 或 重 命名 操作 ， 放 入 目录 。 

3. 一 旦 移入 目录 ,文件 就 不 能 再 修 履 了 ， 如 果 文 件 是 持续 写 入 的 话 ， 新 的 数据 是 无 法 读 取 的 。 

案例 中 ， 必 须 在 启动 后 新 建 一 个 文件 ， 然 后 移入 目录 ,创建 时 间 比 启动 早 的 文件 ,移入 
目录 时 不 会 处 理 。 


案例 中 ， 使 用 的 文件 内 容 源 自 : E: \bd\spark -1.3.0 - bin - hadoop2. 4 \ examples \ sre \ 
main \resources\kvl. txt， 即 Spark 自 带 的 kv 文件 。 由 于 没有 安装 HDFS ， 所 以 默认 的 是 本 地 


文件 系统 ， 不 需要 添加 file: //M scheme 信息 。 对 应 在 HDFS 系统 上 时 ， 可 以 增加 hdfs:// H 


scheme 信息 。 


输出 结果 为 : 
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15/04/13 01:56:01 INFO Server:jetty — 8. y. z - SNAPSHOT 

15/04/13 01: 56: 01 INFOAbstractConnector ; Started SelectChannelConnector@ 0. 0. 0. 0.4040 
15/04/13 01:56:21 INFOFileInputFormat ; Total input paths to process :1 
word total 

494val 494 1 

429val 429 2 

230val 230 5 

43val 43 1 

282val 282 2 

129val, 129 2 

217val 217 2 

382val 382 2 

470val. 470 1 

317val 317 2 

457 val. 457 1 

369val 369 3 

145val 145 1 

333val 333 2 


95val 95 2 
35val35 3 
65val 65 1 


197 val. 197 2 
485val 485 1 
221val 221 2 


Spark 1. 3 版 本 中 ， 增 加 了 EmptyRDD 的 定义 ， 用 于 源 数据 输入 为 空 时 构建 的 RDD， 这 
里 的 代码 ， 添 加 了 EmptyRDD 的 判断 ， 即 if( !rdd. isEmpty() ) 1...} ， 通 过 判断 RDD 是 否 为 
空 ， 来 过 滤 空 数据 ， 从 而 避免 相应 的 job 提交 。 添 加 判断 后 ， 输 出 界面 会 像 上 面 那样 ， 只 有 
收 到 数据 时 ， 才 会 提交 job ， 进 行 处 理 。 

如 果 没 有 添加 该 判断 的 话 ， 代 人 码 会 一 直 提 交 任 务 ， 但 没有 执行 具体 的 数据 处 理 ， 对 应 的 
界面 如 下 : 


15/04/13 01: 58: 58 INFOAbstractConnector: Started SelectChannelConnector@ 0. 0. 0. 0 :4040 


word total 


word total 
word total 
word total 


word total 


另外 ,在 代码 中 ，MasterURL 使 用 的 是 . setMaster ( " local[1]")， 因 为 文件 流 不 需要 
Receiver， 也 就 不 需要 额外 占用 一 个 内 核 。 

之 前 在 spark — shell 提交 应 用 的 方式 下 提 到 过 spark - shell 交互 式 中 已 经 自动 导入 了 
SQLContext 的 隐 式 导入 ， 因 此 不 需要 再 自己 添加 ， 但 对 应 的 spark - submit 方式 提交 应 用 时 ， 
必须 手动 在 使 用 的 代码 中 添加 “import sqlContext. implicits. _ ”这 人 句 隐 式 转换 的 导入 语句 ， 否 
则 ， 后 续 的 toDF 等 调用 会 编译 失败 。 

在 企业 级 的 实时 流 处 理 中 往往 会 引入 Kafka 作为 分 布 式 消息 系统 ， 以 及 Flume 作为 各 种 
数据 的 收集 系统 。 下 面 分 别 给 出 Spark Streaming 整合 Kafka 的 案例 与 解析 ， 以 及 整合 Flume 
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的 案例 与 解析 。 


处 理 Kafka 数据 源 的 准备 工作 ) S 


Kafka 是 一 种 高 吞吐 量 的 分 布 式 发 布 订阅 消 息 系 统 ， 这 里 实现 两 种 读 取 Kafka 数据 的 
方法 H 

1) 一 种 是 Spark 1. 3 版 本 之 前 的 方法 ， 使 用 Receivers 和 Kafka 提供 的 高 层次 的 API。 

2) 一 种 是 Spark 1.3 引入 的 一 个 试验 性 的 方法 ,方法 中 不 再 使 用 Receivers, ， 而 是 直接 
调用 Kafka 提供 的 低层 次 的 API。 

这 两 种 方法 有 着 不 同 的 编程 模型 、 性 能 特征 和 语义 级 的 保证 ， 在 读 取 数据 的 细节 上 有 所 
不 同 。 

一 、Kafka 基础 知识 的 准备 

发 布 消息 通常 有 两 种 模式 : 队列 模式 (Queuing) 和 发 布 - 订阅 模式 (Publish - Sub- 
scribe) o 队列 模式 中 , Consumers 可 以 同时 从 服务 端 读 取消 息 3 每 个 消 息 只 被 其 中 一 个 Con- 
sumer 读 到 ; 发 布 -订阅 模式 中 消息 被 广播 到 所 有 的 Consumer 中 。 

Kafka 的 Topic 的 分 区 数 ， 是 Consumer 可 以 读 取 的 并 行 数 的 最 高 限制 值 ， 这 里 对 应 Spark 
Streaming 并 行 读 取 的 最 大 值 。 

当 Consumer 使 用 相同 的 groupld 去 读 取 同一 个 Topic 数据 时 ， 该 Topic 会 将 分 区 数据 分 
发 到 各 个 Consumer， 即 队列 模式 的 消息 发 布 模式 ， 如 果 Consumer 使 用 不 同 的 groupID 去 读 
取 同 一 个 Topic 数据 时 ， 该 Topic 的 分 区 数据 会 广播 到 各 个 Consumer 上 ， 即 使 用 广播 的 消息 
发 布 模式 。 

二 、Kafka 集群 的 准备 

为 了 简化 Kafka 集群 的 搭建 ， 集 中 针对 Spark Streaming 对 Kafka 流 数据 处 理 的 实践 上 ， 
这 里 以 尽 可 能 简单 地 方式 构建 Kafka 集群 。 这 里 使 用 kafka 2. 10 -0. 8.2. 1. tgz 版 本 。 

简单 搭建 步骤 如 下 : 
1. 获取 Kafka 部 署 包 ， 并 解压 到 指定 目录 
可 以 到 Kafka 的 官方 网 站 http: //kafka. apache. org/ ， 下 载 部 署 包 ， 这 里 使 用 wget 命令 下 
[ harli@ wxx215 cluster_13 ] $wget http: //apache. fayea. com/kafka/0. 8. 2. 1/kafka_2. 10 -0. 8. 2. 1. tgz 
[ harli@ wxx215 cluster_13 ] Star xvf /usr/harli/kafka_2. 10 — 0. 8. 2. 1. tgz 

当前 在 wxx 集群 的 wxx215 节点 部 署 Kafka, 

2. 启用 默认 配置 的 Zookeeper 服务 ， 可 以 直接 使 用 现 有 的 Zookeeper 集群 


bin/zookeeper - server — start. sh — daemon config/zookeeper. properties 


启动 命令 中 - daemon 选项 用 户 设置 启动 脚本 在 后 台 运行 。 启 动 后 ， 使 用 jps 命令 查看 进 
会 看 到 Zookeeper 服务 : 
[ harli@ wxx215 kafka_2. 10 — 0. 8. 2. 1] $bin/zookeeper - server — start. sh — daemon config/zookeep- 


er. properties 


[ harli@ wxx215 kafka, 2. 10 -0. 8. 2. 1] $jps 
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26327 Worker 
26156DataNode 
7117QuorumPeerMain 
25772NodeManager 
7138 Jps 


HP, QuorumPeerMain 对 应 启动 的 Zookeeper 服务 。 
3. 启动 Kafka 服务 
输入 命令 修改 配置 属性 : 


[ harli@ wxx215 kafka 2. 10 —0. 8. 2. 1] $vim . /config/server. properties 


修改 相关 的 属性 ， 当 前 只 修改 下 面 两 个 属性 : 


# Hostname the broker will bind to. If not set,the server will bind to all interfaces 
#host. name = localhost 
host. name = wxx215 
#zookeeper. connect = loCalhost :2181 
zookeeper. connect = wxx215 :2181 


当前 Zookeeper 和 Broker 都 在 wxx215 机 器 上 启动 ， 后续 可 以 在 其 他 机 器 上 添加 Kafka 的 


服务 。 
服务 属性 文件 中 : 


broker. id =0 
port = 9092 
ine’ dire t ean les 
其 中 : 
1) broker. id 属性 : 配置 信息 是 服务 的 全 局 唯一 标识 ， 当 前 为 第 一 个 服务 ， 因 此 直接 使 
用 ， 不 做 修改 ， 整 个 Kafka 中 服务 的 broker. id 值 必须 唯一 不 能 重复 。 
2) port 属性 : 服务 使 用 的 端口 号 ， 如 果 是 在 单 台 机 器 上 启动 多 个 broker 服务 ， 那 么 需 
要 使 用 不 同 的 端口 号 。 
3) log. dir 属性 : 用 于 Kafka 记录 日 志文 件 的 目录 ， 如 果 在 单 台 机 器 上 启动 多 个 broker 
服务 的 话 ， 应 该 设置 成 不 同 目录 ， 避 免 多 个 broker 服务 在 相同 目录 下 生成 目 x". 
修改 完 服务 的 属性 文件 后 ， 启 动 服务 . 


bin/kafka — server — start. sh — daemon config/ server. properties 


其 中 ，- daemon 选项 指定 后 台 方 式 运行 
使 用 jps 命令 查看 : 


[ harli@ wxx215 kafka 2. 10 -0. 8. 2. 1 ] $bin/kafka - server — start. sh — daemon config/server. properties 
[ harli@ wxx215 kafka, 2. 10 — 0. 8. 2. 1] $jps 

26327 Worker 

7412Kafka 

26156 DataNode 

7117QuorumPeerMain 

25772 NodeManager 
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7456 Jps 
FLA, Kafka 就 是 启动 的 broker 服务 的 进程 。 
假设 重新 启动 一 个 新 的 broker， 复 制 config/server. properties 为 config/ server_1. properties, 
修改 其 中 关键 的 三 个 属性 为 : 
broker. id = 1 


port = 9093 
log. dir = /tmp/kafka — logs -1 


启动 broker 服务 : 


bin/kafka — server — start. sh — daemon config/server 1. properties 


对 应 的 进程 如 下 : 
[ harli @ wxx215 kafka, 2.10 — 0.8.2. 1] $ bin/kafka — server — start. sh — daemon config/server 


_1. properties 

[ harli@ wxx215 kafka 2. 10 — 0. 8. 2. 1] $jps 
26327 Worker 

7585 Jps 

7535Kafka 

7412Kafka 

26156DataNode 

7117QuorumPeerMain 

25772 NodeManager 


如 果 停 止 服务 可 以 启动 bin/kafka — server — stop. sh 或 直接 kill -9 pid 方式 ， 但 是 ， 脚 本 
方式 会 kill 掉 当 前 所 有 的 Kafka 服务 (具体 可 以 查看 脚本 命令 )， 因 此 如 果 在 单机 上 启动 了 
多 个 服务 ， 而 只 需要 停止 其 中 某 一 个 时 ， 应 该 选用 kill 命令 。 

创建 Kafka 的 Topic， 为 了 简化 ， 这 里 使 用 一 个 Topie， 输 入 创建 命令 : 

[ harli@ wxx215 kafka 2. 10 -0. 8. 2. 1 ] $bin/kafka — topics. sh —— create —— zookeeper wxx215 :2181 — 


— replication — factor 2 —— partitions 4 —— topic kafka, test 


Created topic " kafka test". 

创建 名 为 kafka test 的 topic， 复 制 因 子 设 为 2， 同 时 分 区 数 为 4， 注 意 ， 分 区 数 是 read 
parallelisms 的 最 大 值 。 
查询 Kafka 当前 的 Topic 信息 ， 输 入 命令 : 

[ harli@ wxx215 kafka 2. 10 — 0. 8. 2. 1] $bin/kafka - topics. sh —— list —— zookeeper wxx215: 2181 

kafka, test 
指定 -- zookeeper 选项 的 值 为 wxx215: 2181， 对 应 的 Topic， 即 刚 创建 的 。 
创建 Producer 的 提交 脚本 start - producer. sh: 


#!/usr/bin/env bash 

./bin/spark - submit | —— master spark: //192. 168. 70. 214: 7077 V 
—- deploy - mode client V 
—- driver - memory lg \ 


—- driver — cores 1 \ 
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一 一 total — executor — cores 3 V 


—- executor ~ memory 1g \ 

—- class stream. KafkaWordCountProducer V 

—- jars. /lib/spark — examples - 1. 3. 0 — hadoop2. 4. 0. jar ^ 
. . /applications/testprojectide. jar wxx215: 2181 V 

kafka, test 20 10 


该 脚本 对 应 的 类 的 使 用 方法 : 


Usage:KafkaWordCountProducer < metadataBrokerList > < topic >" +" < messagesPerSec > < words- 
PerMessage > 
其 中 ， 参 数 metadataBrokerList 的 值 为 : wxx215: 9092 ,wxx215: 9093 ， 即 当前 启动 的 Kafka 
服务 (broker WZ, i474 158); 参数 topic 的 值 即 刚才 创建 的 Topic 的 名 字 kafka_test; 参数 
messagesPerSec 的 值 为 20， 即 每 个 间隔 时 间 发 送 的 消息 条 数 ， 参数 wordsPerMessage 的 值 为 
10， 即 每 条 消息 中 的 单词 个 数 。 
创建 Consumer 的 提交 脚本 start — consumer. sh; 


. /bin/spark - submit — —— master spark ;//192. 168. 70. 214: 7077 \ 
—— deploy - mode client V 
—- driver - memory lg \ 
—- driver — cores 1 V 


total — executor — cores 6 V 


—— executor — memory lg \ 

—- class stream. KafkaWordCount ^ 

—- jars. /lib/spark — examples - 1. 3. 0 — hadoop2. 4. 0. jar \ 
. . / applications/testprojectide. jar wxx215: 2181 \ 

groupl kafka, test 4 


该 脚本 对 应 的 类 的 使 用 方法 : 
Usage: KafkaWordCount < zkQuorum > < group > «topics > « numThreads > 


其 中 ， 参 数 水 Quorum 的 值 为 : wxx215: 2181， 即 当前 启动 的 Zookeeper 连接 属性 
(Host: port 列表 ， 逗 号 分 隔 ) ; 参数 group 的 值 是 指定 当前 Consumer 的 groupId， 这 里 设置 为 
groupl; 参数 topics 的 值 是 kafka__test， 即 刚才 创建 的 Topic 的 名 字 kafka_test; 参数 
numThreads 的 值 是 4， 即 读 取 Kafka 流 的 线程 数 ， 当 前 设置 成 分 区 数 的 个 数 ， 对 应 的 每 个 线 
程 读 取 一 个 分 区 数据 。 


基于 Receiver 读 取 Kafka 数据 的 案例 与 解析 


基于 Receiver 读 取 的 方法 ， 使 用 了 一 个 Receiver 来 获取 数据 ， 使 用 Kafka 的 高 层次 API 
实现 了 数据 接收 。 在 所 有 的 Receivers 中 ， 通 过 一 个 Receiver 从 Kafka 接收 数据 ， 并 存 人 
Spark Executors ， 在 Spark Streaming 处 理 数据 时 提交 jobs, 

由 于 使 用 了 Kafka 的 高 层次 API， 数 据 读 取 的 offset 信息 由 Spark 负责 管理 ， 一 旦 处 理 失 
败 将 会 丢失 数据 ， 因 此 Spark Streaming 引入 了 WAL (Write Ahead Logs) ， 用 于 保存 offset fri 
息 ， 在 失败 时 ， 重 新 读 取 offset 信息 ， 开 始 读 取 数据 。 
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从 高 层次 的 角度 看 ， 之 前 的 和 Kafka 集成 方案 使 用 WAL 工作 方式 如 下 : 
1) 运行 在 Spark Workers/Executors 上 的 Kafka Receivers 连续 不 断 地 从 Kafka 中 读 取 数 
据 ， 其 中 用 到 了 Kafka 中 高 层次 的 消费 者 API 
2) 接收 到 的 数据 被 存储 在 Spark Workers/Executors 的 内 存 中 ， 同 时 也 被 写 人 到 WAL S 
中 。 只 有 接收 到 的 数据 被 持久 化 到 Log, Kafka Receivers 才 会 去 更 新 Zookeeper 中 Kafka 的 
偏 移 量 。 
3) 接收 到 的 数据 和 WAL 存储 位 置信 息 被 可 靠 地 存储 ， 如 果 期 间 出 现 故 障 ， 这 些 信息 被 
用 来 从 错误 中 恢复 ， 并 继续 处 理 数据 。 
一 、 应 用 程序 准备 
这 里 以 Spark 提供 的 example 案例 作为 基础 ， 进 行 案例 实践 分 析 ， 代 码 如 下 : 


package stream 

import java. util. Properties 

import kafka. producer. _ 

import org. apache. spark. streaming. _ 
import org. apache. spark. streaming. kafka. _ 
import org. apache. spark. SparkConf 


import org. apache. spark. examples. streaming. _ 


/ oko 
* Created by lenovo on 2015/4/12. 
*/ 
object KafkaWordCount | 
def main( args; Array[ String] ) | 
if (args. length « 4) | 
System. err. println ( " Usage: KafkaWordCount < zkQuorum > < group > < topics > < numThreads >" ) 
System. exit(1) 
| 
// 除 过 多 的 日 志 信息 ,可 以 临时 添加 以 下 代码 
import org. apache. log4j. | Level , Logger} 


Logger. getLogger( " org. apache. spark" ). setLevel( Level. WARN) 

Logger. getLogger( " org. apache. spark. sql" ). setLevel( Level. WARN) 

Logger. getLogger( " org. apache. spark. streaming" ). setLevel( Level. WARN) 

StreamingExamples. setStreamingLogLevels( ) 

// 模 式 匹 配 ,unapply 方法 

val Array ( zkQuorum group , topics ,numThreads) = args 

val sparkConf = new SparkConf( ). setAppName( " KafkaWordCount" ) 

val ssc = new StreamingContext( sparkConf, Seconds (2) ) 

// 设 置 checkpoint 目录 ,用 于 Driver 的 容错 和 对 RDD 的 周期 性 checkpoint 

ssc. checkpoint( " checkpoint" ) 

// 可 以 同时 接收 多 个 topie 的 数据 ,每 个 接收 的 线程 数 为 numThreads 
valtopicMap = topics. split(" ," ). map( (_,numThreads. toInt) ). toMap 


val lines = KafkaUtils. createStream( ssc ,zkQuorum, group ,topicMap). map(_. _2) 
val words = lines. flatMap(_. split(" ")) 


//val wordCounts = words. map (x => (x, 1L)). reduceByKeyAndWindow(. + _,_ - _, Minutes 
(10) , Seconds(2) ,2) 
//val wordCounts = words. map (x => (x, 1L)). reduceByKeyAndWindow(. + _,_ - _, Minutes 
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(5) ,Minutes(3) ,2) 
val wordCounts = words. map(x => (x,1L)). reduceByKeyAndWindow(_ +_,_ —_, Minutes(1) , 
Minutes(1) ,2) 
wordCounts. print( ) 
ssc. start( ) 
ssc. awaitTermination( ) 
| 
| 
// 这 是 Kafka 的 Producer , 即 生产 者 ,可 以 借鉴 该 方法 ， 
// 将 Spark Streaming 处 理 的 数据 写 到 Kafka 中 
// 这 里 每 隔 100ms 的 时 间 生 成 指定 范围 的 int 作为 Work 向 参数 指定 的 Topic 写 数据 
object KafkaWordCountProducer | 
def main( args: Array[ String] ) | 
if (args. length « 4) | 
System. err. println( " Usage: KafkaWordCountProducer < metadataBrokerList > «topic >" + 


" < messagesPerSec > < wordsPerMessage > " ) 
System. exit(1) 
| 
val Array ( brokers , topic , messagesPerSec , wordsPerMessage ) = args 
//Lookeeper 的 连接 属性 
val props = new Properties( ) 
props. put( " metadata. broker. list" , brokers ) 
props. put( " serializer. class" ," kafka. serializer. StringEncoder" ) 
val config = new ProducerConfig( props ) 
val producer = new Producer[ String, String ] ( config) 
// Ii] topic 发 送 消息 
while (true) | 
val messages = (1 to messagesPerSec. toInt). map | messageNum => 
val str = (1 to wordsPerMessage. toInt). map( x => scala. util. Random. nextInt(30). toString) 
. mkString(" ") 
new KeyedMessage [ String, String | ( topic , str) 


}. toArray 
producer. send( messages; _ * ) 


Thread. sleep( 100) 


| 


KafkaUtils. createStream 通过 源码 查看 的 话 ， 可 以 看 到 内 部 默认 设置 了 一 些 参数 ， 


defcreateStream ( 
ssc : StreamingContext , 
zkQuorum ; String, 
groupld; String , 
topics ; Map[ String, Int] , 
storageLevel ; StorageLevel = StorageLevel. MEMORY AND DISK SER 2 
) : ReceiverInputDStream[ (String, String) ] = | 
val kafkaParams = Map| String String ] ( 


" zookeeper. connect" -> zkQuorum," group. id" —> groupld, 


" zookeeper. connection. timeout. ms" —> " 10000" ) 
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createStream| String , String , StringDecoder , StringDecoder | ( 


ssc , kafkaParams , topics , storageLevel ) 


| 


这 里 默认 使 用 的 存储 级 别 为 SterageLevel. MEMORY_AND_DISK_SER_2， 通 过 辅助 来 提 > 
供 容错 性 ， 和 RDD 的 默认 存储 级 别 不 同 ; 默认 用 于 序列 化 的 解码 类 为 StringDecoder， 和 
KafkaWordCountProducer 发 送 消息 时 的 编码 类 是 一 样 的 。 

注意 : 收发 双方 的 编码 应 保持 一 致 ， 避 免 出 现 乱码 ， 有 特殊 需求 时 ， 可 以 自 定义 编 解码 的 类 。 

二 、 无 WAL 的 案例 测试 

启动 Producer 脚本 start — producer. sh 和 Consumer 脚本 : start — consumer. sh, 

当代 码 为 : val wordCounts = words. map(x => (x,1L) ). reduceByKeyAndWindow(_+_,_ -., 
Minutes( 10) ,Seconds(2) ,2) IT, Æ start - consumer. sh 启动 终端 ， 每 隔 2 秒 就 统计 前 10 分 钟 
的 单词 统计 信息 ， 其 中 10 分 钟 为 窗口 长 度 ，2 秒 为 批 数据 时 间 间 隔 。 

下 面 是 其 中 的 一 部 分 输出 (当前 仅 一 个 Consumer， 分 组 为 : Group 1 , Topic 及 其 分 区 数 
为 Kafka | test — 4 partitions) : 


Time:1428911400000 ms 


(4,46425) 
(8,46201) 
(6,46325) 
(0,46119) 
(2,46068) 
(7,46380) 
(5,46464) 
(9,46420) 
(3,46019) 
(1,45979) 


Time ; 1428911402000 ms 


(4,46815) 
(8,46616) 
(6,46741) 
(0,46545) 
(2,46471) 
(7,46749) 
(5,46856) 
(9 ,46833 ) 
(3,46413) 
(1,46361) 


Time:1428911404000 ms 
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(4,47207) 
(8 ,46993 ) 
(6,47109) 
(0,46903) 
(2,46848) 
(7,47135) 
(5,47218) 
(9 ,47235 ) 
(3,46799) 
(1,46753) 


为 了 深入 分 析 reduceByKeyAndWindow 方法 的 作用 ， 这 里 使 用 Kafka 自 带 的 console 的 


Producer 来 提供 数据 ， 对 应 执行 命令 为 : 


[ harli@ wxx215 spark -1.3.0 - bin — hadoop2. 4] $. . /kafka_2. 10 -0.8.2. 1/bin/kafka — console — 
producer. sh —— broker — list wxx215: 9092 , wxx215: 9093 —— topic kafka, test 


测试 滑动 长 度 与 输出 的 关系 ， 使 用 的 代码 : val wordCounts = words. map(x => (x,1L)) 


. reduceByKeyAndWindow(_+_,_ 一 _,Minutes(5),Minutes(3),2)， 即 修改 了 时 间 ， 窗 口 长 度 
为 5 分钟， 滑动 时 间 间 隔 为 3 分 钟 ， 对 应 的 测试 结 


Consumer 的 启动 时 间 是 28 分 钟 11 秒 ， 打 印 时 间 整 理 见 表 4. 1。 
表 4.1 打印 结果 的 时 间 表 


时 间 输 ”出 

31 分 钟 打印 第 一 次 
34 分 钟 打印 第 二 次 
37 分 钟 打印 第 三 次 


这 里 可 以 看 到 reduceByKeyAndWindow 方法 ， 滑 动 长 度 的 Minutes (3 ) 值 ， 对 应 了 窗口 数 


据 统计 的 频率 。 对 应 的 窗口 长 度 ， 也 可 以 通过 这 种 方式 去 测试 。 把 后 一 次 的 打印 时 间 减 去 上 
一 次 的 打印 时 间 就 是 对 应 滑 块 长 度 Minutes(3) ， 也 就 是 窗口 数据 统计 的 频率 。 


这 是 Consumer 界面 对 应 的 输出 信息 : 


[ Stage 0; 


(46 +4) / 50] 


Time:1428913872000 ms 


(4,6) 
(2,12) 
(,3) 
(11,1) 
(3,12) 
(1,41) 


Time:1428914052000 ms 
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(4,0) 

(2,102) 

(,6) 

(11,1) © 
(3,0) 

(1,31) 


Time ; 1428914232000 ms 


(4,0) 
(2,72) 
(,0) 
(11,0) 
(3,0) 
(1,0) 


Time:1428914412000 ms 


(4,0) 
(2,0) 
(,0) 
(11,0) 
(3,0) 
(1,0) 

可 以 看 到 ， 前 面 在 Producer 界面 输入 数据 后 ， 每 隔 滑动 时 间 3 分 钟 就 统计 一 次 前 窗口 长 
度 5 分 钟 的 单词 信息 ， 到 后 面 ，Producer 不 再 输入 数据 ， 统 计 信 息 也 就 变 成 了 0。 

在 实时 流 处 理 中 ， 窗 口 的 概念 是 很 重要 的 ， 经 过 上 面 这 种 人 为 地 控制 输入 数据 的 测试 
这 里 进一步 对 reduceByKeyAndWindow 方法 进行 详细 分 析 。 

reduceByKeyAndWindow 有 两 个 重 载 方法 ， 如 下 面 两 种 样 例 : 

1) valwordCounts = words. map (x => (x,1 L)).reduceByKeyAndWindow (_ + _, Seconds 
(10s) ,seconds(4) ) 。 

2) valwordCounts = words. map (x => (x,1L)). reduceByKeyAndWindow(_ + _,_ — _, Sec- 
onds( 10s) ,seconds(4) ,2) , 

以 KafkaWordCount 这 个 Consumer 为 例 ， 上 面 样 例 对 应 的 窗口 操作 可 以 理解 成 ， 每 隔 4 
秒 的 时 间 ， 统 计 一 次 过 去 10 秘 的 时 间 内 的 所 有 输入 数据 的 单词 统计 信息 。 这 里 的 窗口 长 度 
Seconds( 10s) ， 表 示 统 计 的 范围 ， 滑 动 时 间 间 隔 seconds(4) 表 示 每 隔 4 秒 就 开始 统计 一 次 。 

这 是 官方 网 站 上 对 窗口 方法 相关 概念 的 图 形 描 述 ， 这 里 在 原 图 上 加 了 一 些 细节 说 明 ， 如 
图 4.34 所 示 。 这 些 说 明 中 的 一 些 概念 可 以 参考 章节 4. 2 Spark Streaming 基础 概念 部 分 。 

两 个 长 方形 框 ， 描 述 一 个 窗口 信息 ， 其 中 包含 了 3 个 时 间 片 的 批 数据 ， 对 应 的 时 间 跨 度 
就 是 “3 乘 时 间 片 ”; 滑动 时 间 间 隔 ， 是 指 从 第 一 个 窗口 滑动 ( 沿 着 时 间 流 方向 前 进 ) 到 第 
二 个 窗口 时 ， 经 过 的 时 间 片 ， 由 于 是 2 个 时 间 片 ， 对 应 的 滑动 时 间 间 隔 就 是 “2 乘 时 间 片 ”。 

reduceByKeyAndWindow 方法 也 是 窗口 方法 之 一 ， 其 他 的 窗口 方法 ， 在 理解 窗口 长 度 和 
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滑动 时 间 间 隔 


二 2 个 时 间 片 窗口 长 度 =2 
个 时 间 片 "i 


time 3 time4 time 5 


original 


Pe -- >_> 
DStream } —— 一 | — 
window-based 
operation 
windowed 
DStream ~~ ime 


window window window 
at time 1 at time 3 at time 5 


图 4.34 窗口 长 度 与 滑动 时 间 间 隔 图 


滑动 时 间 间 隔 之 后 都 比较 好 理解 ， 这 里 针对 相对 复杂 的 reduceByKeyAndWindow 方法 进行 深 
入 分 析 ， 加 强 对 窗口 类 方法 的 理解 。 
这 里 通过 图 形 来 描述 reduceByKeyAndWindow 的 重 载 方法 的 异同 点 ， 如 图 4. 35 所 示 。 


Goren nore en eee 


| timed ; | timel ; | time5 ,| time6 ; 
E OT MCN NOE PARLA 


图 4.35  reduceByKeyAndWindow 方法 描述 图 


对 应 的 方法 调用 为 reduceByKeyAndWindow(_ + _,Seconds(5s) ,seconds(2) ) 。 该 方法 在 
Scala API 官方 网 站 上 的 定义 如 下 : 


def reduceByKeyAndWindow( reduceFune ; ( V , V) 2 V , invReduceFune ; ( V , V) 2 V , windowDuration ; Du- 
ration , slideDuration ; Duration, partitioner ; Partitioner, filterFunc; ((K,V)) —Boolean) : DStream[ (K,V) | 
Return a newDStream by applying incremental reduceByKey over a sliding window. 

def reduceByKey AndWindow( reduceFunc ; ( V , V) >V , windowDuration ; Duration) ; DStream[ (K, V) ] 


Return a newDStream by applying reduceByKey over a sliding window on this DStream. 


其 他 的 重 载 方法 只 是 细节 上 的 差异 ， 这 里 不 做 具体 分 析 。 下 面 开始 分 析 该 API。 

1. def reduceByKeyAndWindow ( reduceFunc ; ( V , V) =V ,windowDuration... 

以 reduceFune: (V, V) P V 为“_+_” 为 例 进行 分 析 。 

该 方法 只 是 根据 滑动 时 间 间 隔 ， 对 窗口 长 度 内 的 时 间 片 数据 进行 reduceFunc 统计 ， 对 
应 的 结果 如 下 。 

1) 窗口 1 的 统计 结果 : winl = time0 +timel + time2 + time3 + time4 

2) 窗口 2 的 统计 结果 : win2 =time2 +time3 +time4 +time5 +time6 

在 图 4. 35 中 ， 对 应 为 简单 地 各 自 统计 自己 的 5 个 时 间 片 的 数据 。 

2. def reduceByKeyAndWindow ( reduceFunc ; ( V , V) =V ,invReduceFunc ; ( V, V) ,windowDu- 
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ration... 
以 reduceFunc: (V, V) P V W “_+_”, invReduceFunc: (V, V) FV AW * -— ”为 例 进 行 
分 析 。 


该 方法 复 用 了 两 个 窗口 中 ， 时 间 片 的 交集 部 分 的 统计 结果 ， 即 图 中 的 时 间 片 交集 为 S 
time2, time3, time4, ， 因 此 进行 reduce 时 ， 复 用 了 这 三 个 时 间 片 的 结果 ， 对 应 的 结果 可 以 表 
IRN: 

1) 窗口 1 的 统计 结果 : winl =time0 + timel + time2 + time3 + time4 

2) 窗口 2 的 统计 结果 : win2 = winl + time5 + time6 -time0 -timel 

即 ， 窗 口 2 的 统计 是 在 窗口 1 的 统计 基础 上 ， 加 上 新 增 的 时 间 片 ， 同 时 减 去 移出 的 时 
间 片 。 

根据 上 面 的 分 析 ， 我 们 可 以 知道 ，reduceFunc 和 invReduceFunc 这 两 个 方法 必须 是 互 逆 
Hj, 像 “_+_” 和 “_-_” 是 互 逆 操 作 一 样 。 

同时 ， 还 可 以 看 出 ， 当 滑动 时 间 间 隔 远 小 于 窗口 长 度 时 ， 前 后 两 个 窗口 的 时 间 片 交集 就 
越 多 ， 因 此 使 用 第 二 种 方法 可 以 复 用 更 多 的 时 间 片 的 统计 结果 ， 对 应 的 性 能 也 就 更 高 了 。 如 
果 滑 动 时 间 间 隔 等 于 或 大 于 窗口 长 度 时 ， 由 于 没有 可 复 用 的 时 间 片 统计 ， 这 时 候 直 接 使 用 第 
一 种 方法 就 可 以 了 。 

三 、 窗 口 方法 的 源码 解析 

在 DStream 类 中 提供 了 window 的 方法 ， 通过 查看 该 方法 的 源码 ， 进 一 步 解析 窗口 操作 。 


def window ( windowDuration ; Duration, slideDuration ; Duration) ; DStream[ T] = | 


new WindowedDStream( this , windowDuration , slideDuration ) 


1 
j 


查看 各 种 窗口 相关 的 API， 基 本 上 都 是 间接 或 直接 调用 了 window 的 方法 。 

因此 ， 通 过 对 window 方法 ， 也 就 是 对 WindowedDStream 类 的 深入 源码 解析 ， 可 以 了 解 
窗口 操作 的 具体 实现 细节 。 

主 构造 函数 ; 


private[ streaming | 

class WindowedDStream| T: ClassTag | ( 
parent: DStream[ T] , 
_windowDuration ; Duration , 
_slideDuration ; Duration ) 


extends DStream[ T ] (parent. ssc) | 


这 里 父 依 赖 DStream 为 传人 的 DStream, Tk EAE RAUEN : 


if ( !_windowDuration. isMultipleOf( parent. slideDuration ) ) | 
throw new Exception( " The window duration of windowed DStream (" + _windowDuration +") " +" 
must be a multiple of the slide duration of parent DStream (" + parent. slideDuration +" ) " ) 

} 

if ( !. slideDuration. isMultipleOf( parent. slideDuration) ) | 
throw new Exception( " The slide duration of windowed DStream (" + | slideDuration +" ) " + " must be 


a multiple of the slide duration of parent DStream (" + parent. slideDuration + " )" ) 


这 里 
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| 


在 构造 WindowedDStream 实例 时 ， 就 对 窗口 长 度 和 请 动 时 间 间 隔 做 了 检查 ， 两 者 都 


必须 是 parent. slideDuration 的 倍数 ，parent. slideDuration 对 应 的 就 是 DStream 的 slideDuration 


属性 ， 查 


对 外 
tion 时 间 ， 


看 源码 可 知 ， 该 属性 即时 间 片 的 时 间 值 ，DStream 类 中 该 属性 的 源码 如 下 : 
/ * * DStream 产生 一 个 RDD 的 批 处 理 时 间 间 隔 se / 


def slideDuration ; Duration 
部 数据 源 来 说 ，slideDuration 就 是 我 们 设置 的 批 处 理 的 时 间 间 隔 ， 每 持续 slideDura- 
就 开始 构建 一 个 RDD。 对 应 的 WindowedDStream， 是 每 隔 一 个 滑动 时 间 间 隔 构 建 


一 个 RDD slideDuration 就 是 窗口 操作 中 的 滑动 时 间 间 隔 。 虽 然 都 是 每 隔 slideDuration 间隔 
就 构建 一 个 RDD, 但 普通 的 DStream 构建 的 RDD 的 数据 是 在 一 个 slideDuration 间隔 内 的 ， 


ARE 


WindowedDStream 的 话 ，RDD 包含 的 数据 是 windowDuration 间隔 内 的 。 


总 之 ，slideDuration 是 控制 RDD 构建 频率 的 时 间 间 隔 。 bn Ud a RDD 数据 


对 应 的 时 


Duration , 


下 面 这 两 个 


其 中 


最 后 


间 长 度 。 同 时 ， 普 通 DStream 的 windowDuration (实际 上 没有 这 个 属性 ) 等 于 slide- 
即 等 于 时 间 片 大 小 。 
属性 用 于 控制 内 存 中 持久 化 时 ， 数 据 保留 的 时 间 : 


override def parentRememberDuration ; Duration = rememberDuration + windowDuration 


rememberDuration 7j DStream 属性 : 
private[ streaming] var rememberDuration ; Duration = null 
后 ， 最 关键 的 个 方法 是 compute 方法 ， 对 应 源码 为 : 


override def compute( validTime:Time) :Option| RDD[ T] ] = | 


val currentWindow = new Interval( validTime - windowDuration + parent. slideDuration , validTime ) 


val rddsInWindow = parent. slice( currentWindow ) 
val windowRDD = if ( rddsInWindow. flatMap(  . partitioner). distinct. length 2-1) | 
logDebug( " Using partition aware union for windowing at " + validTime) 
new PartitionerAwareUnionRDD (ssc. sc , rddsInWindow ) 
| else | 
logDebug( " Using normal union for windowing at " + validTime) 
new UnionRDD( ssc. sc , rddsInWindow ) 
} 
Some ( windowRDD ) 


1 
j 


其 中 : 


1) v 


validTime 


al currentWindow = new Interval ( validTime - windowDuration + parent. slideDuration , 


): parent. slideDuration 是 构建 RDD 对 应 的 时 间 ，“validTime - windowDuration" 是 


计算 回 退 windowDuration (窗口 长 度 ) 的 时 间 长 度 ， 为 了 和 validTime 一 样 ， 需 要 调整 
Interval 的 起 始点 ， 如 图 4. 36 所 示 。 
2) val rddsInWindow = parent. slice ( currentWindow) : parent 即 DStream, slice 方法 构建 对 


应 current 


Window 这 个 时 间 范 围 的 RDD。 
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+ Batch interval validTime 


| 


Interval 


DStream 上 时 间 片 = 1s 


windowDuration = 5s Interval = (time0-end,time4-end) 


图 4.36 窗口 操作 中 的 Interval 计算 


3) 最 后 通过 UnionRDD 操作 将 得 到 的 RDD 集合 进行 合并 (RDD 实例 是 和 时 间 片 一 一 
对 应 的 ， 因 此 slice 得 到 的 应 该 是 多 个 时 间 片 的 RDD 的 集合 ) 。 

由 UnionRDD 操作 我 们 可 以 推导 出 ， 最 终 合并 后 的 RDD 的 分 区 数 将 是 批 数 据 时 间 片 对 
应 的 RDD 的 分 区 数 的 sum (RA) 值 。 因 此 ， 当 分 区 数据 量 不 是 很 大 时 ， 在 进行 窗口 类 型 
的 操作 时 ， 可 以 优先 考虑 使 用 带 分 区 设置 参数 的 重 载 方法 。 相 应 的 ， 内 存 中 存储 的 RDD 就 
应 该 足够 装载 指定 窗口 长 度 的 对 应 数据 量 了 。 

底层 的 RDD 是 对 应 一 个 时 间 片 的 批 数据 的 ， 对 应 的 分 区 数 应 该 是 由 该 时 间 片 内 的 数据 
设置 。 由 于 底层 的 参数 Spark. streaming. blockInterval 用 于 控制 接收 数据 块 的 最 小 单位 的 时 
间 ， 所 以 这 个 最 小 单位 时 间 对 应 接收 到 的 数据 应 该 就 是 RDD 中 的 block。 也 就 是 说 ，batch- 
Interval/blockInterval 就 是 对 应 的 RDD 的 分 区 数 了 。 

比如 ， 当 前 流 的 时 间 片 设置 为 2 秒 时 ， 由 于 参数 Spark. streaming. blockInterval 默认 为 
200 2E b, KEXA RDD 的 分 区 数 是 10。 

四 、 启 动 WAL 的 案例 解析 

为 了 避免 在 数据 处 理 过 程 中 出 现 故 障 而 导致 的 数据 丢失 问题 ， 在 Spark 1.2 中 Spark 
Streaming 引入 了 WAL， 用 于 保存 offset 信息 ， 在 失败 时 ， 可 以 通过 重新 加 载 offset 信息 ， 读 
取 处 理 故 障 的 数据 ， 避 免 数 据 丢 失 。 

启动 WAL 只 需要 配置 属性 “Spark. streaming. receiver. writeAheadLog. enable”， 将 默认 的 
false 修改 为 true 即 可 。 

该 配置 设置 为 true 后 ， 从 一 个 Receiver 接受 的 所 有 数据 都 会 写 人 配置 的 Checkpoint 目录 
中 的 一 个 预 写 日 志 (a write ahead log) 中 (可 以 参考 HBase 中 的 WAL) 。 使 用 WAL 可 以 避 
免 在 Driver 恢复 后 的 数据 丢失 问题 ， 可 以 确保 零 数 据 丢 失 。 由 于 增加 了 数据 的 预 写 日 志 ， 所 
以 启动 WAL 不 可 避免 地 会 降低 每 个 Receiver 的 吞吐 量 。 在 实际 应 用 时 ,我 们 可 以 通过 使 用 
更 多 的 Receiver 来 并 行 接收 数据 ， 以 提高 整体 的 吞吐 量 。 

在 上 面 的 源码 分 析 中 ， 我 们 已 经 看 到 了 流 的 创建 ， 对 应 创建 创建 流 的 源码 如 下 : 


def createStream( 
ssc :StreamingContext , 


zkQuorum ;String, 
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groupld : String, 


topics ; Map[ String, Int] , 
storageLevel ; StorageLevel = StorageLevel. MEMORY_AND_DISK_SER_2 
): 

创建 流 时 ， 默 认 的 StorageLevel 为 StorageLevel. MEMORY_AND_DISK_SER_2, 这 里 的 _2 
用 于 对 数据 进行 备份 ， 保 证 容错 性 ， 如 果 我 们 启动 了 WAL， 数 据 会 自动 备份 到 存储 系统 上 。 
这 时 候 可 以 将 input stream 默认 的 存储 级 别 修改 为 StorageLevel MEMORY, AND. DISK. SER, 
即 内 部 的 数据 存储 不 需要 再 进行 数据 备份 了 。 

WAL 的 启用 ， 只 需要 修改 一 个 配置 ， 而 同时 在 代码 中 构建 流 时 ， 需 修改 默认 的 存储 级 
别 。 修 改 配置 属性 可 以 在 Spark - defaults. conf 中 增加 以 下 一 行内 容 : 


Spark. streaming. receiver. writeAheadLog. enable true 


注意 : 由 于 WAL 要 将 数据 存储 到 Checkpoint 目录 下 ， 代 码 中 也 要 调用 streamingContext. checkpoint( ) 
来 设置 Checkpoint 目录 才 可 以 。 

这 里 有 一 个 细节 需要 注意 ， 即 Driver 失败 后 重启 部 分 ， 如 果 是 Spark on Yarn 模式 的 话 ， 
由 Yarn 负责 重启 Driver, BB ApplicationsMaster; 如 果 是 在 Standalone 模式 下 开启 Driver 失败 
时 启动 的 话 ， 可 以 查看 spark - shell 或 spark - submit 的 帮助 信息 ， 即 将 Driver 失败 时 重启 的 
选项 打开 即 可 ， 如 下 所 示 : 


spark standalone with cluster deploy mode only: 


—— driver - cores NUM Cores for driver ( Default; 1). 
—— supervise If given, restarts the driver on failure. 
-- kill SUBMISSION ID If given, kills the driver specified. 
—- status SUBMISSION ID If given , requests the status of the driver specified. 


在 启动 交互 式 或 直接 提交 应 用 时 ， 加 上 - - supervise 就 可 以 让 Driver 在 失败 时 重启 了 ， 
需要 注意 的 是 ， 这 是 在 “Standalone + Cluster” 模 式 下 才 有 效 的 。 

注意 : WAL 在 Spark 1.3 KAP, Flume 部 分 在 内 部 测试 出 现 了 回 退 现 象 ， 这 部 分 已 经 提交 了 PR, 
具体 内 容 可 以 参考 Spark 1.3.1 版 本 的 release 说 明 。 

由 于 本 书 重 点 内 容 在 案例 与 解析 部 分 ， 属 性 配置 等 相关 内 容 介绍 的 不 多 ， 具 体 可 以 参考 
官方 网 站 的 配置 页 (http://Spark. apache. org/docs/latest/configuration. html) 。 

常见 问题 与 分 析 : 在 使 用 Receiver 接收 数据 的 流 处 理 中 ， 有 时 候 会 磁 到 无 法 接收 数据 的 
现象 ， 这 时 可 以 先 从 两 个 方面 初步 排查 问题 : 

1) 发 布 消息 时 ， 是 否 使 用 了 队列 模式 的 消息 发 布 模式 ， 这 时 候 在 某 个 Consumer 上 会 表 
现 为 数据 丢失 等 现象 。 

2) 任何 一 个 使 用 了 Receiver 的 流 处 理 ， 都 需要 注意 一 点 ， 每 个 Receiver 本 身 就 会 占用 
一 个 内 核 ， 如 果 没 有 分 配 足够 的 内 核 的 话 ， 就 无 法 启动 数据 处 理 ， 表 面 上 就 像 是 没有 接收 到 
数据 一 样 ， 实 际 上 是 没有 启动 数据 人 处理 任务 。 如 果 是 local 模式 的 话 ， 对 应 地 设置 足够 的 
N(local[ N]) ， 如 果 是 集群 模式 ， 对 应 的 Executor (一 个 Executor 对 应 一 个 Receiver) 需要 设 
置 足够 的 内 核 个 数 。 

Kafka 相关 问题 的 分 析 与 排查 等 ， 可 以 借助 Spark 应 用 程序 的 Web Interface 界面 上 新 增 
的 Streaming 页 面 ， 也 可 以 借助 第 三 方 工具 ， 如 ApacheKafka 监控 系列 KafkaOffsetMonitor Jf 


€*4 Spark Streaming KERI ARH 


源 项 目 ， 可 以 用 来 监控 Kafka 的 Consumer 相关 信息 ， 来 帮助 分 析 与 排查 Kafka 相关 问题 。 


直接 读 取 (无 Receiver) Kafka 数据 的 案例 与 解析 ) 


在 Spark 1.3 中 ， 针 对 Kafka 数据 源 引 入 的 新 的 不 借助 Receiver， 而 采用 直接 读 取 数 据 的 
方法 ， 这 个 方法 具有 更 强 的 端 到 端的 保证 。 当 启动 处 理 数据 的 Jobs 时 ，Kafka 底层 的 Con- 
sumer API 会 根据 定义 的 offset 范围 从 Kafka 中 读 取 数 据 。 方 法 中 通过 周期 性 地 查询 每 个 
“Topic + Partition" 的 最 新 offsets ， 以 及 设置 的 offset 范围 ,来 获取 批 数 据 ， 进 行 处 理 。 当 前 
这 一 试验 性 的 方法 只 在 Spark 1. 3 的 Scala 和 Java API 中 提供 。 

虽然 ,在 Spark 1. 2 版 本 中 ，Spark Streaming 引入 了 WAL， 但 是 ， 如 果 WAL 已 经 写成 功 
了 ， 但 还 没 及 时 更 新 Zookeeper 中 的 Kafka 偏 移 量 时 ， 而 Kafka 是 根据 Zookeeper 中 记录 的 
Consumer 当前 的 ofset 来 发 送 数据 的 ， 所 以 当 系统 出 现 故 障 时 ， 还 是 会 导致 某 些 数据 重复 
处 理 。 

根本 原因 在 于 Spark Streaming 的 WAL 操作 和 Zookeeper 中 的 offset 更 新 并 不 是 一 个 原子 
性 的 操作 ， 并 不 能 保证 Spark Streaming 和 Zookeeper 中 记录 的 数据 offset 的 一 致 性 。 因 此 在 
Spark 1.3 引入 了 Direct API 概念 ， 它 可 以 在 不 使 用 WAL 的 情况 下 实现 仅 处 理 一 次 的 语义 
(exactly — once semantics), Direct API 直接 使 用 Kafka 的 低层 次 API， 指 定 要 读 取 的 offset, 
因此 ， 真 正 使 用 的 offset 是 由 Spark Streaming 通过 Checkpoints 来 维护 的 ， 只 在 一 个 地 方 维护 
offset ， 就 不 会 出 现 不 一 致 的 问题 了 。 

一 、 案 例 实践 的 准备 

一 般 在 企业 中 ， 会 对 一 些 日 志 信 息 、 网 络 异常 事件 信息 等 进行 统计 ， 本 案例 针对 这 些 信 
息 ， 通 过 Kafka 发 送 到 Spark Streaming， 以 关键 字 ERROR 作为 特征 值 ， 统 计 流 持续 的 异常 
言 息 的 条 数 ， 用 两 种 不 同 的 方式 ， 统 计 从 Kafka 获取 的 数据 的 单词 数量 。 

这 里 给 出 应 用 代码 以 及 两 种 offset 获取 方式 的 实践 案例 与 分 析 。 

应 用 代码 的 如 下 : 


package stream 

import kafka. serializer. StringDecoder 

import org. apache. spark. streaming. _ 

import org. apache. spark. streaming. kafka. _ 

import org. apache. spark. SparkConf 

import org. apache. spark. HashPartitioner 

import org. apache. spark. examples. streaming. _ 

/ckok 

Consumes messages from one or more topics in Kafka and does wordcount. 


Usage ; DirectKafkaWordCount < brokers > < topics > 


* 


< brokers > is a list of one or more Kafka brokers 


< topics >is a list of one or more kafka topics to consume from 


Example: 
$bin/run - example streaming. DirectKafkaWordCount brokerl — host; port , broker2 — host ; port \ 
topicl ,topic2 

/ 


* * X X X X X* X 
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object DirectKafkaWordCount | 
def main( args; Array[ String] ) | 
if (args. length « 2) | 
System. err. println( s""" 

| Usage: DirectKafkaWordCount < brokers > < topics > 
| «brokers >is a list of one or more Kafka brokers 
| «topics >is a list of one or more kafka topics to consume from 
| 

. stripMargin) 


System. exit(1) 
| 
// 屏 项 过 多 的 日 志 信 息 
import org. apache. log4j. | Level , Logger} 


Logger. getLogger( " org. apache. spark" ). setLevel( Level. WARN) 
Logger. getLogger( " org. apache. spark. sql" ). setLevel( Level. WARN) 
Logger. getLogger( " org. apache. spark. streaming" ). setLevel( Level. WARN) 
// 默 认 情 况 下 该 句 不 起 作用 

StreamingExamples. setStreamingLogLevels( ) 
// 模 式 匹配 ,从 args 中 获取 brokers 和 topics 
val Array(brokers , topics) = args 
// 以 批 数据 时 间 片 为 2 秒 构建 StreamingContext 实例 
val sparkConf = new SparkConf( ). setAppName( " DirectKafkaWordCount" ) 
val ssc = new StreamingContext ( sparkConf , Seconds ( 10) ) 


ssc. checkpoint( " directcheckpoint" ) 
// 使 用 传人 的 brokers and topics 构建 Kafka 流 
val topicsSet = topics. split( " ," ). toSet 


val kafkaParams = Map| String , String | ( " metadata. broker. list" — brokers ) 
// 这 里 添加 一 个 Kafka 的 属性 配置 ,设置 后 ,会 重 置 offset ,也 就 是 会 从 Kafka 那 从 头 开始 读 取 数 据 


//val kafkaParams = Map| String, String | ( " metadata. broker. list" —» brokers," auto. offset. reset" —» " 


smallest" ) 
val messages = KafkaUtils. createDirectStream([ String , String , StringDecoder , StringDecoder | ( 

ssc , kafkaParams , topicsSet ) 

// Get the lines, split them into words, count the error line ,words ,etc. and print 

val lines = messages. map( . _2) 
/设置 初始 状态 统计 值 

val initialRDD = ssc. sparkContext. parallelize( List( ( " ERROR" ,0) ) ) 

val errorWords = lines. filter(_. contains( " ERROR" ) ). map | x Z2 ("ERROR",1) | 
// val runningCounts = errorWords. updateStateByKey ( updateErrorCount ) 

valrunningCounts = errorWords. updateStateByKey[ Int | ( newUpdateFunc , 

new HashPartitioner( ssc. sparkContext. defaultParallelism ) , true , initialRDD) 

// 这 是 随 着 流 计算 的 进行 E 不 断 更 新 的 统计 值 
runningCounts. print( ) 

// 这 是 流 的 单词 统计 ,对 应 的 reduceByKey 实际 是 作用 在 其 底层 的 RDD 序列 上 

// 可 以 看 到 ,基本 上 DStream 提供 的 高 层 API, 作 用 和 RDD 的 同名 APL 基本 是 差不多 的 

val words = lines. flatMap(_. split(" ")) 


val wordCounts = words. map( x => (x,1L) ). reduceByKey(_ + _) 

wordCounts. print( ) 
// 这 里 还 可 以 使 用 DStream 的 transform ,直接 对 DStream 的 底层 RDD 序列 进行 reduceByKey 操作 
val wordCounts2 = words. map( x => (x,1L) ). transform(_. reduceByKey(_ +_) ) 
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wordCounts2. print( ) 
// 启 动 流 处 理 


ssc. start( ) 


ssc. awaitTermination( ) 


1 
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// 流 的 状态 更 新 函数 ,元 素 类 型 为 Key - Value 格式 
//runningCount 是 历史 的 状态 值 
//newValues 是 新 的 流 数据 的 Value 序列 值 
// 利 用 该 序列 值 对 runningCount 进行 更 新 ,并 返 回 更 新 后 的 最 新 状态 值 
def updateErrorCount ( newValues ; Seq[ Int | ,runningCount:Option[ Int] ) : Option[ Int] = | 
// 对 新 进来 的 值 集合 进行 求 和 
val currentCount = newValues. sum 
// 获 取 当 前 的 统计 值 一 一 即 状态 值 
val previousCount = runningCount. getOrElse( 0) 
// 更 新 最 新 的 统计 值 
Some( currentCount + previousCount) 
} 
A 
val newUpdateFunc = ( iterator ; Iterator[ ( String, Seq[ Int] ,Option[ Int] ) ] ) => | 
iterator. flatMap(t => updateErrorCount(t. 2,t. 3). map(s => (t. 1,s))) 
} 
} 


这 里 为 了 测试 方便 ， 将 流 的 批 数据 时 间 片 设 成 了 10 秒 。 
在 另 一 个 终端 或 节点 上 ， 启 动 Producer， 对 应 脚本 如 下 (或 者 用 前 面 的 start - 
producer. sh) : 


g 


bin/kafka — console — producer. sh —— broker — listwxx215: 9092 , wxx215: 9093 —— topic kafka test 
在 Producer 生产 者 界面 上 输入 以 下 日 志 信 息 : 


[2015 -04 - 14 12: 01: 36,625] TRACE [ Controller 0 ] : checking need to trigger partition rebalance 
( kafka. controller. KafkaController) 

[2015 - 04 - 14 12:01: 36,627 | ERROR | Controller 0] : preferred replicas by broker Map(1 -> Map 
( [ kafka, test, 1] -> List(1,0) , [ kafka test,3] > List(1,0) , [ test,0] — List(1) ) ,0 -> Map([ kafka_ 
test, 0] -> List(0,1) ,[ kafka, test,2] — List(0,1) ) ) (kafka. controller. KafkaController) 

[2015 - 04 - 14 12: 01: 36,627] ERROR [ Controller 0 | : topics not in preferred replica Map ( ) 
(kafka. controller. KafkaController) 

[2015 -04 -14 12:01:36,627 | TRACE | Controller 0 | :leader imbalance ratio for broker 1 is 0. 000000 
( kafka. controller. KafkaController) 

[2015 - 04 - 14 12: 01: 36,627] ERROR [ Controller O | : topics not in preferred replica Map ( ) 
( kafka. controller. KafkaController) 

[2015 -04 -14 12: 01: 36,627 | TRACE | Controller 0 | :leader imbalance ratio for broker 0 is 0. 000000 
( kafka. controller. KafkaController) 

[2015 - 04 - 14 12:06: 36,625] TRACE [ Controller 0] : checking need to trigger partition rebalance 
( kafka. controller. KafkaController) 

[2015 - 04 - 14 12:06: 36,626 | ERROR | Controller 0] : preferred replicas by broker Map(1 -> Map 
( [ kafka, test, 1] -> List(1,0) , [ kafka test,3] > List(1,0) , [ test,0] — List(1) ) ,0 -> Map([ kafka_ 
test, 0] -> List(0,1) ,[ kafka, test,2] -> List(0,1) ) ) (kafka. controller. KafkaController) 


e 
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[2015 - 04 - 14 12: 06: 36,626 ] ERROR [ Controller 0 | : topics not in preferred replica Map ( ) 
( kafka. controller. KafkaController) 

[2015 -04 -14 12: 06: 36,626 | TRACE | Controller 0 | :leader imbalance ratio for broker 1 is 0. 000000 
(kafka. controller. KafkaController) 

[2015 - 04 - 14 12: 06: 36,626 ] ERROR [ Controller 0 | : topics not in preferred replica Map ( ) 
( kafka. controller. KafkaController) 

[2015 -04 -14 12: 06: 36,626 | TRACE | Controller 0 | :leader imbalance ratio for broker 0 is 0. 000000 
( kafka. controller. KafkaController) 

[2015 -04 - 14 12: 11: 36,625] TRACE [ Controller O | : checking need to trigger partition rebalance 
( kafka. controller. KafkaController) 

[2015 -04 - 14 12:11: 36,626 | ERROR | Controller 0] : preferred replicas by broker Map(1 -> Map 
( [ kafka, test, 1] -> List(1,0) , [ kafka_test,3 ] > List(1,0) , [test,0] — List(1) ) ,0 -> Map( [ kafka 
test, 0] -> List(0,1) ,[ kafka, test,2] -> List(0,1) ) ) (kafka. controller. KafkaController) 

[2015 - 04 - 14 12: 11: 36,626 ] ERROR [ Controller 0 ] : topics not in preferred replica Map ( ) 
( kafka. controller. KafkaController) 

[2015 -04 -14 12: 11: 36,626 | TRACE | Controller 0 ] :leader imbalance ratio for broker 1 is 0. 000000 
( kafka. controller. KafkaController) 

[2015 - 04 - 14 12: 11: 36,627] ERROR [ Controller 0 | : topics not in preferred replica Map ( ) 
( kafka. controller. KafkaController) 

[2015 -04 -14 12: 11: 36,627] TRACE | Controller 0 ] :leader imbalance ratio for broker 0 is 0. 000000 
( kafka. controller. KafkaController) 

[2015 - 04 - 14 12: 11: 36,627] ERROR [ Controller 0 | : topics not in preferred replica Map ( ) 
( kafka. controller. KafkaController) 


这 是 从 Kafka 日 志 里 截取 的 一 段 ， 将 INFO 信息 替换 为 ERROR 进行 测试 。 实 际 企业 环 
境 中 ， 可 以 通过 Flume - ng 收集 日 志 信 息 ， 存 人 Kafka， 也 可 以 自己 编写 Kafka 的 Producer 
客户 端 ， 向 Kafka 指定 Topic 发 送 消息 等 。 

Z., M Topic 最 新 的 offset. 开始 读 取 数 据 的 案例 与 分 析 
通过 设置 Kafka 的 参数 为 : 


valkafkaParams = Map| String, String | ( " metadata. broker. list" — brokers) 


准备 好 日 志 数据 之 后 ， 开 始 启动 作为 启动 生产 者 的 脚本 : 


[ harli@ wxx215 spark -1.3.0 -bin — hadoop2. 4 ] $. /app/start - DirectKafkaWordCount. sh 


Spark assembly has been built with Hive, includingDatanucleus jars on classpath 


界面 每 隔 时 间 片 长 度 10 秒 时 间 就 打印 一 次 统计 信息 ， 第 一 次 10 秒 的 统计 信息 如 下 : 


Time:1428990030000 ms 


(ERROR, 10) 


Time ; 1428990030000 ms 


(replica ,7) 

( 1 ) > ,3) 
(checking,3) 
(is,6) 
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( partition ,3) 
(12:06:36,625] ,1) 
( ERROR,10) 

( need,3) 

( [ kafka, test,3] ,3) 
(0,6) 


Time : 1428990030000 ms 


(replica ,7) 

(1) 3 ,3) 

(ERROR ,10) 

([ kafka, test,3] ,3) 
(0,6) 
(12:11:36,625],1) 
( trigger,3) 

( topics, 7) 
(1))),3) 
([test,0] ,3) 


生产 者 界面 一 次 输入 包含 10 条 ERROR 的 日 志 信息 ， 可 以 看 到 ， 过 滤 ERROR 并 持续 统 
计 的 结果 是 当前 流 一 共有 10 条 信息 包含 ERROR 信息 。 

后 面 两 个 统计 结果 ， 只 是 使 用 了 不 同 的 方法 实现 相同 的 单词 统计 功能 ， 因 此 显示 的 统计 
结果 是 一 样 的 。 

再 次 向 生产 者 输入 信息 ， 这 次 先 输入 包含 9 条 ERROR 的 日 志 信 息 ， e 过 滤 
ERROR 并 持续 统计 的 结果 ， 是 流 数据 的 前 一 次 统计 状态 值 (10 条 ERROR 信息 ) ， 加 上 新 
增 的 9 条， 一 共 包 含 19 条 ERROR 的 信息 ， 信 息 如 下 : 


Time:1428990050000 ms 


( ERROR ,19) 


Time:1428990050000 ms 


( replica,6) 
(1),,3) 
(checking ,3 ) 

(is ,6) 

( partition ,3 ) 

(12: 06: 36 ,625 ] ,1) 
(ERROR,9) 
(need ,3 ) 

( [ kafka, test,3] ,3) 
(0,6) 


大 数据 实例 开发 教程 


Time:1428990050000 mas 


(replica,6) 
(1),,3) 
(ERROR,9) 

( [ kafka, test,3] ,3) 
(0,6) 
(12:11:36,625],1) 
(trigger ,3 ) 

(topics ,6) 
(1))),3) 
([test,0] ,3) 


对 应 的 最 后 一 行 数据 在 生产 者 界面 输入 后 ， 对 应 的 统计 为 : 


Time:1428990060000 ms 


( ERROR,20) 


Time:1428990060000 ms 


( replica, 1) 

(ERROR ,1) 

(topics ,1 ) 

(12: 11: 36,627] ,1) 

( [2015 -04 - 14,1) 

( [ Controller, 1 ) 

( not,1) 

( (kafka. controller. KafkaController) ,1 ) 
( preferred ,1 ) 

(Map() ,1) 


Time:1428990060000 ms 


(replica, 1) 

(ERROR,1) 

(topics , 1) 

( [2015 -04 - 14,1) 

( (kafka. controller. KafkaController) ,1 ) 
( preferred ,1 ) 

( Map() ,1) 

(in,1) 

(0]:,1) 

(12:11:36,627],1) 
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可 以 从 单词 统计 中 新 增 的 ERROR 单词 数 (这 里 日 志 的 一 条 信息 中 只 出 现 一 次 ER- 
ROR) ， 推 出 第 一 个 统计 结果 确实 保留 了 流 数据 的 状态 信息 。 

三 、 重 置 offset ， 从 Topic 最 老 的 offset 开始 读 取 数据 的 案例 与 分 析 

只 需要 在 创建 Kafka 流 时 ， 将 Kafka 的 参数 metadata. broker. list 设置 为 smallest， 就 可 以 © 
从 Kafka 中 缓存 的 最 早 的 数据 开始 读 取 。 
通过 设置 Kafka 的 参数 为 : 

// 修 改 这 里 添加 一 个 Kafka. 的 属性 配置 ,设置 后 ,会 重 置 offset, 也 就 是 会 从 Kafka. 那 从 头 开始 读 取 数据 


//val kafkaParams = Map| String, String | ( " metadata. broker. list" -> brokers," auto. offset. reset" -> " 


Hl 


smallest" ) 


这 里 将 注释 去 掉 ， 同 时 注释 掉 上 面 一 行 的 kafkaParams 设置 ， 然 后 启动 应 用 ， 这 时 候 不 
需要 再 在 Producer 生产 者 界面 息 ， 因 为 Kafka 已 经 缓存 了 7 一 批 数据 coe 
时 间 为 7 天 ) 。 
启动 脚本 ; 


[ harli@ wxx215 spark -1.3.0 -bin — hadoop2. 4 ] $. /app/start - DirectKafkaWordCount. sh 


SparkSpark assembly has been built with Hive , including Datanucleus jars on classpath 


每 次 启动 后 都 会 从 Katka 的 缓存 中 从 头 开始 读 取 数 据 。 对 应 界面 提示 信息 中 有 : 


15/04/14 14: 12: 54 INFOutils. VerifiableProperties : Verifying properties 

15/04/14 14: 12: 54 INFOutils. VerifiableProperties ; Property auto. offset. reset is overridden to smallest 
15/04/14 14: 12: 54 INFOutils. VerifiableProperties ; Property group. id is overridden to 

15/04/14 14: 12: 54 INFOutils. VerifiableProperties ; Property zookeeper. connect is overridden to 
15/04/14 14: 13: 00 INFOutils. VerifiableProperties : Verifying properties 

15/04/14 14: 13: 00 INFOutils. VerifiableProperties ; Property auto. offset. reset is overridden to smallest 
15/04/14 14: 13: 00 INFOutils. VerifiableProperties ; Property group. id is overridden to 

15/04/14 14: 13: 00 INFOutils. VerifiableProperties ; Property zookeeper. connect is overridden to 
15/04/14 14: 13:00 WARN util. SizeEstimator; Failed to check whether UseCompressedOops is set; as- 


suming yes 


这 是 第 一 、 二 次 启动 脚本 时 的 输出 ， 每 次 都 是 从 当前 Kafka 的 缓存 中 重新 读 取 ， 因 此 统 
计数 据 是 一 样 的 。 


[ harli@ wxx215 spark -1.3.0 -bin — hadoop2. 4 ] $. /app/start - DirectKafkaWordCount. sh 

Spark assembly has been built with Hive, includingDatanucleus jars on classpath 

15/04/14 14: 10:58 WARN util. NativeCodeLoader; Unable to load native — hadoop library for your plat- 
form...using builtin - java classes where applicable 

15/04/14 14: 10: 59 INFO slf4j. Slf4jLogger ; Slf4jLogger started 

15/04/14 14: 10: 59 INFORemoting ; Starting remoting 

15/04/14 14: 11: 00 INFORemoting: Remoting started; listening on addresses: [ akka. tep://sparkDriver 
(9 wxx215: 59763 | 
15/04/14 14: 11: 00 INFO server. Server:jetty — 8. y. z - SNAPSHOT 

15/04/14 14: 11: 00 INFO server. AbstractConnector :Started SocketConnector@ 0. 0. 0. 0: 51482 
15/04/14 14: 11: 00 INFO server. Server:jetty — 8. y. z - SNAPSHOT 

15/04/14 14: 11: 00 INFO server. AbstractConnector ; Started SelectChannelConnector@ 0. 0. 0. 0: 4040 
15/04/14 14: 11: 02 INFOutils. VerifiableProperties ; Verifying properties 

15/04/14 14: 11: 02 INFOutils. VerifiableProperties ; Property auto. offset. reset is overridden to smallest 


15/04/14 14: 
15/04/14 14: 
15/04/14 14: 
15/04/14 14: 
15/04/14 14: 
15/04/14 14: 
15/04/14 14: 


suming yes 


11: 
11: 
11: 
11: 
11: 
11: 
11: 
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02 INFOutils. VerifiableProperties : Property group. id is overridden to 


02 INFOutils. VerifiableProperties : Property zookeeper. connect is overridden to 

10 INFOutils. VerifiableProperties ; Verifying properties 

10 INFOutils. VerifiableProperties ; Property auto. offset. reset is overridden to smallest 
10 INFOutils. VerifiableProperties ; Property group. id is overridden to 

10 INFOutils. VerifiableProperties ; Property zookeeper. connect is overridden to 

10 WARN util. SizeEstimator; Failed to check whether UseCompressedOops is set; as- 


Time:1428991870000 ms 


( ERROR,68) 


Time:1428991870000 ms 


(273,200) 
(499 ,200) 
(419,200) 
(600,200) 
(253,200) 
(282,200) 
(82,200) 
(592,200) 
(332,200) 
(345,200) 


Time ; 1428991870000 ms 


(275 ,200) 
(499 ,200) 
(419 ,200) 
(488 ,200) 
(118 ,200) 
(202 ,200) 
(282 ,200) 
(378 ,200) 
(547 ,200) 
(426 ,200) 


Time ; 1428991880000 ms 


( ERROR, 68 ) 


Time ; 1428991880000 ms 


Time ; 1428991880000 ms 


15/04/14 14: 31: 30 IN 
15/04/14 14: 31: 30 IN 
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这 里 再 在 Kafka 生产 者 界面 输入 10 条 包含 ERROR 的 消息 ， 然 后 重新 启动 ， 预 期 结果 应 
该 仅仅 将 ERROR 的 状态 计数 统计 更 新 为 : (ERROR 68 +10) 


[ harli@ wxx215 spark -1.3.0 -bin — hadoop2. 4 ] $. /app/start - DirectKafkaWordCount. sh 
Spark assembly has been built with Hive, includingDatanucleus jars on classpath 
15/04/14 14:31:29 WARN util. NativeCodeLoader; Unable to load native — hadoop library for your plat- 


form...using builtin - java classes where applicable 


FO slf4j. Slf4jLogger : Slf4jLogger started 
FORemoting ; Starting remoting 


15/04/14 14:31: 30 INFORemoting: Remoting started; listening on addresses: [ akka. tep://sparkDriver 


@ wxx215: 42711] 
15/04/14 14: 
15/04/14 14: 
15/04/14 14: 
15/04/14 14: 
15/04/14 14: 
15/04/14 14: 
15/04/14 14: 
15/04/14 14: 
15/04/14 14: 
15/04/14 14: 
15/04/14 14: 
15/04/14 14: 
15/04/14 14: 


suming yes 


31: 
31: 
31: 
31: 
31: 
31: 
31: 
31: 
31: 
31: 
31: 
31: 
31: 


31 INFO server. 
31 INFO server. 
36 INFO server. 
36 INFO server. 


38 INFOutils. 
38 INFOutils. 
38 INFOutils. 
38 INFOutils. 
40 INFOutils. 
40 INFOutils. 
40 INFOutils. 
40 INFOutils. 


VerifiableProperties : 
VerifiableProperties : 
VerifiableProperties : 
VerifiableProperties : 
VerifiableProperties : 
VerifiableProperties : 
VerifiableProperties : 
VerifiableProperties : 


. Server; jetty — 8. y. 
. AbstractConnector ; Started SocketConnector@ 0. 0. 0. 0: 49258 
. Server; jetty — 8. y. 
. AbstractConnector ; Started SelectChannelConnector@ 0. 0. 0. 0: 4040 


z - SNAPSHOT 


z - SNAPSHOT 


Verifying properties 

Property auto. offset. reset is overridden to smallest 
Property group. id is overridden to 

Property zookeeper. connect is overridden to 
Verifying properties 

Property auto. offset. reset is overridden to smallest 
Property group. id is overridden to 


Property zookeeper. connect is overridden to 


40 WARN util. SizeEstimator; Failed to check whether UseCompressedOops is set; as- 


Time:1428993100000 ms 


( ERROR,78) 


Time:1428993100000 ms 


(273,200) 
(499 ,200) 
(419,200) 
(600,200) 
(253,200) 
(282,200) 
(82,200) 
(592,200) 
(332,200) 
(345,200) 


如 上 面 的 (ERROR ,78 ) 就 是 预期 的 结果 。 


四 、 深 入 状态 更 新 函数 的 源码 解析 


Spark Streaming API 中 比较 难 理解 的 除了 窗口 类 型 的 API 之 外 ， 还 有 一 个 就 是 状态 更 新 
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类 型 的 API。 
这 里 从 最 简单 的 状态 更 新 类 型 的 API 开始 分 析 ， 案 例 中 给 出 了 两 个 API 的 实例 ， 调 用 代 
但 如 下 : 


val runningCounts = errorWords. updateStateByKey[ Int | (newUpdateFunc , 
new HashPartitioner( ssc. sparkContext. defaultParallelism) , true , initialRDD ) 

这 两 者 是 一 样 的 ， 为 了 更 深入 理解 updateStateByKey， 先 详细 分 析 updateErrorCount 和 
newUpdateFunc 两 个 函数 。 分 析 函 数 有 个 比较 简单 的 方法 ， 可 以 启动 Scala 运行 环境 ， 然 后 
直接 将 函数 定义 复制 进去 ， 这 时 候 就 可 以 看 到 交互 式 界面 反馈 的 详细 信息 了 ， 步 又 如 下 : 

首先 要 在 本 地 安装 Scala 环境 ， 具 体 安 装 方法 可 以 从 网 上 搜 下 ， 这 里 以 Windows 7 下 为 
例 ， 启 动 Windows 下 的 command 窗口 ， 如 图 4.37 所 示 。 

Er >. -na i, = 


Windows 将 根据 写 所 粮 入 的 和 名称， 为 仿 打 开 相 应 的 程序 . 
MES. SSE Internet 资源 。 


打开 (O): E of 
@ ”使 用 管理 权限 创建 此 任务 。 


mmm mE 


= d 


图 4.37 启动 Windows 下 的 command 窗口 


打开 command 窗口 后 , 输入 scala, TE (Enter) 键 后 出 现 scala 交互 式 界 面 ， 如 图 4. 38 
所 示 。 


" 


EN Sm: C:\Windows\system32\cmd.exe - scala 


iC: MIsers*lenovo?scala 
Melcome to Scala version 2.18.4 (Java HotSpot¢IM> 64-Bit Server UM. Java 1.7.8 715. 


Type in expressions to have them evaluated. 
Type :help for more information. 


图 4.38 启动 Windows F scala 22 5: 3X E rfl 


然后 将 代码 复制 进去 ， 交 互 式 界面 的 反馈 信息 如 下 : 


scala» def updateErrorCount( newValues ; Seq| Int ] , runningCount ; Option[ Int] ) ; Option[ Int] = | 
| val currentCount = newValues. sum 

| val previousCount = runningCount. getOrElse (0 ) 
| Some( currentCount + previousCount ) 

| d 


updateErrorCount ; ( newValues ; Seq[ Int | , runningCount ; Option[ Int | ) Option Int ] 


scala » 


scala » val newUpdateFunc = ( iterator; Iterator[ (String ,Seq[ Int] ,Option[ Int] ) ]) => | 
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| iterator. flaaMap(t => updateErrorCount(t. 2,t. 3). map(s => (t. 1,5))) 
n. 
new UpdateFunc ; Iterator[ ( String, Seq[ Int] , Option[ Int] ) ] => Iterator[ (String,Int) ] = < functionl > 
这 里 ， 函 数字 面 量 newUpdateFunc 的 类 型 是 一 个 function! > ， 即 带 一 个 参数 的 Punc- © 
tion 类 ,输入 参数 的 类 型 为 Iterator [ (String, Seq[ Int], Option [ Int])]， 返 回 类 型 为 Iterator 
[(String,Int) ] 。 输 入 参数 中 ，Sting 参数 对 应 的 是 Key, Seq[ Int 对 应 的 是 Value 序列 ，Op- 
tion[ Int] 对 应 的 是 历史 状态 值 ; 返回 类 型 中 的 String 对 应 Key， 而 Int 则 是 对 应 Key 更 新 后 的 
新 的 状态 值 。 
接 下 来 分 析 updateStateByKey 方法 的 源码 : 
def updateStateByKey[ S; ClassTag | ( 
updateFunc ; (Seq[ V ] ,Option[ S] ) => Option[ S] 
) :DStream[ (K,S) ] = | 


updateStateByKey ( updateFunc , defaultPartitioner( ) ) 
} 


调用 代码 updateStateByKey (updateErrorCount) ， 这 是 最 简单 的 状态 更 新 API 方式 ， 只 需 
要 提供 Value 序列 值 和 历史 状态 信息 ， 就 可 得 到 新 的 状态 信息 的 处 理 结果 。 内 部 使 用 的 分 区 
器 是 默认 分 区 器 ， 实 际 上 就 是 new HashPartitioner (ssc. sparkContext. defaultParallelism) 构建 
的 分 区 器 ， 这 部 分 可 以 参考 章节 2.2. 9 分 区 数 设置 的 案例 与 源码 解析 部 分 。 最 终 在 各 种 默认 
参数 被 设置 后 ， 就 到 了 第 二 个 API， 及 调用 updateStateByKey[ Int] (newUpdateFunc ,new Hash- 
Partitioner( ssc. sparkContext. defaultParallelism ) , true, initialRDD ) 方法 。 最 终 构建 了 StageD- 
Stream 实例 : 


def updateStateByKey[ S; ClassTag | ( 
updateFunc ; ( Iterator[ (K,Seq[ V] ,Option[ S] ) ]) => Iterator[ (K,S) ] ， 
partitioner ; Partitioner , 
rememberPartitioner ; Boolean 
) :DStream[ (K,S) ] = | 
new StateDStream( self , ssc. sc. clean(updateFunc ) ,partitioner,rememberPartitioner , None ) 


| 


到 此 状态 ， 更 新 类 的 API 源码 解析 结束 。 对 应 构建 的 StateDStream 源码 解析 可 以 参考 前 
面 的 WindowedDStream 源码 解析 。 


TOUT 处 理 Flume 数据 源 的 实践 准备 3 


Flume 是 由 Cloudera 公司 开发 的 一 款 高 性 能 、 高 可 能 的 分 布 式 日 志 收 集 系统 。Flume 的 
核心 是 把 数据 从 数据 源 收集 过 来 ， 再 送 到 目的 地 。 为 了 保证 输送 一 定 成 功 ， 在 送 到 目的 地 之 
前 ， 会 先 缓存 数据 ， 待 数据 真正 到 达 目 的 地 后 ,删除 自己 缓存 的 数据 。 

初始 的 Flume 版 本 是 FlumeOG (Flume original generation), FH Cloudera 公司 开发 ， 叫 做 
Cloudera Flume; 后 来 Cloudera 把 Flume 贡献 给 了 Apache, 版 本 改 为 FlumeNG (Flume next 
generation) ， 现 在 称 为 Apache Flume, 

EB: 当前 大 部 分 高 级 数据 源 都 没有 提供 针对 Python API 的 访问 接口 ， 因 此 使 用 Python API 时 ， 先 
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在 官方 网 站 上 确认 是 否 支持 。 

Flume 是 一 个 分 布 式 的 、 可 靠 的 、 可 以 用 于 有 效 收集 、 聚 合 、 移 动 海 量 日 志 数 据 的 服 
务 。Flume 以 Agent 为 最 小 的 独立 运行 单位 。 单 个 Agent 由 Source, Sink 和 Channel 三 大 组 件 
构成 ， 如 图 4. 39 所 示 。 


图 4.39 Flume Agent 三 大 组 件 图 


Flume 提供 了 大 量 内 置 的 Source, Channel 和 Sink 类 型 。 不 同类 型 的 Source, Channel 和 
Sink 可 以 自由 组 合 。 组 合 方式 基于 用 户 设置 的 配置 文件 。 

Agent 的 配置 信息 包括 以 下 几 部 分 : 

1) Agent 的 Source 信息 ， 多 个 Source 间 空 格 分 隔 。 

2) Agent 的 Channel 信息 ， 多 个 Channel 间 空 格 分 隔 。 

3) Agent 的 Sink 信息 ， 多 个 Sink 间 空 格 分 隔 。 

4) 各 个 Source 与 Channel 的 关联 ， 多 个 Channel 间 空 格 分 隔 。 

5) 各 个 Sink 与 Channel 的 管理 ， 多 个 Channel 间 空 格 分 隔 。 

HP, Source 作为 数据 来 源 ，Channel 作为 Flume 的 数据 缓存 ，Sink 是 各 个 数据 接收 端 。 
指定 关联 关系 后 ， 数 据 就 会 从 Source 端 开 始 收集 数据 ， 然 后 发 送 到 关联 的 Channel 上 进行 组 
存 ， 最 后 发 送 到 与 Channel 的 Sink 上 。 

在 基于 Flume 风格 的 推送 数据 方式 ， 和 定义 Sink 的 拉 取 数据 方式 的 案例 实践 与 分 析 中 ， 
Sink 的 host; port 设置 要 求 不 同 ， 可 以 简单 地 用 以 下 方法 加 强 理 解 : 

1) 使 用 推送 数据 方式 时 ， 由 Flume 负责 推送 数据 ， 因 此 需要 知道 推送 的 目的 地 “host: 
port”， 所 以 对 应 的 Sink BELAY “host; port” 就 是 我 们 集群 中 的 某 个 worker 节点 地 址 。 

2) 使 用 拉 取 数据 方式 时 ， 原 理 同上 ，Spark Streaming 应 用 从 Flume 侧 拉 取 数 据 ， 因 此 需 
要 知道 Flume 侧 的 “host:port”， 所 以 对 应 定制 的 Sink 设置 的 “host:port” 是 在 Agent 运行 
节点 上 上。 运行 Spark Streaming 时 ， 输 入 该 地 址 ， 就 可 以 从 该 地 址 拉 取 数据 了 。 


ETE 基于 Flume 风格 的 推送 数据 案例 与 解析 


基于 Flume 风格 的 推送 数据 方式 ; 本 质 上 是 Spark Streaming 在 Flume 中 建立 一 个 Avro 
agent 的 接收 需 ， 用 于 接收 流 数据 ， 比 如 企业 要 处 理 的 海量 日 志 数 据 ， 然 后 在 Flume 收集 到 
数据 后 推送 到 Spark 进行 处 理 。 

一 般 需要 满足 以 下 两 个 要 求 ; 

1) ?4 “Flume + Spark Streaming” 应 用 程序 启动 时 ， 其 中 一 台 Spark Worker 节点 必须 是 
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Flume 推送 数据 的 那 台 机 器 。 

2) 同时 ，Flume 必须 可 以 向 这 台 机 器 的 指定 端口 推送 数据 。 

一 、 配 置 Flume 

基于 推送 方式 的 流 数据 应 用 ， 需 要 为 Flume Agent 配置 一 个 具有 如 下 格式 的 Avro sink 配 (S) 
置信 息 ， 如 下 所 示 : 


agent. sinks = avroSink 

agent. sinks. avroSink. type = avro 

agent. sinks. avroSink. channel = memoryChannel 

agent. sinks. avroSink. hostname = < chosen machine s hostname > 


agent. sinks. avroSink. port = < chosen port on the machine > 


HP, agent 是 配置 的 Flume Agent 的 名 字 ，avroSink 为 接收 数据 的 Sink 的 名 字 ，memo- 
ryChannel 为 该 Sink 关联 的 Channel 的 名 字 hostname 和 port 指定 Sink 所 在 的 机 器 信息 。 
当前 “Flume + Spark Streaming” 应 用 程序 需要 添加 的 依赖 包 ; 


groupld = org. apache. Spark 
artifactld = Spark — streaming - flume 2. 10 


version = 1. 3. 0 


可 以 在 SBT 或 Maven 的 构建 文件 中 添加 该 依赖 信息 ， 或 者 在 IDEA 中 将 该 jar 包 添 加 到 
Libraries 中 。 

注意 : 配置 信息 中 的 hostname 必须 和 集群 的 资源 管理 器 节点 的 hostname 一 样 ， 这 样 在 资源 调度 时 ， 
才能 匹配 名 字 并 在 对 应 的 机 器 节点 上 启动 Receiver, 

部 署 时 ， 可 以 将 spark - submit 没有 提供 的 依赖 包 一 起 打包 到 应 用 程序 的 jar 包 中 ， 这 样 
在 spark - submit 提交 时 ， 可 以 不 需要 通过 -- jars 等 方式 增加 外 部 依赖 包 。 

Z, Flume + Spark Streaming 实践 案例 与 解析 

(一 ) Flume Agent 配置 案例 与 解析 

配置 文件 avro. conf 的 案例 与 解析 : 


## Describe the agent 

al. sources = rl 

al. sinks = klavroSink 

al. channels = cl c2 

# Describe/configure the source 

al. sources. rl. type = avro 

al. sources. rl. bind = wxx215 

al. sources. rl. port 24141 

# Describe the sink 

al. sinks. k1. type = logger 

al. sinks. avroSink. type = avro 

al. sinks. avroSink. hostname = wxx225 
al. sinks. avroSink. port 24142 

# Use a channel which buffers events in memory 
al. channels. cl. type = memory 

al. channels. cl. capacity = 1000 


al. channels. c1. transactionCapacity = 100 
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al. channels. c2. type = memory 


al. channels. c2. capacity = 1000 

al. channels. c2. transactionCapacity = 100 
# Bind the source and sink to the channel 
al. sources. rl. channels 2 c1 c2 

al. sinks. k1. channel = cl 


al. sinks. avroSink. channel = c2 


对 应 的 数据 流 如 图 4. 40 所 示 。 


workers 
(wxx225:4142) 


Flume avro client 


图 4.40 “当前 配置 对 应 的 数据 流 图 
配置 项 解析 的 具体 内 容 参 考 表 4. 2。 


表 4.2 配置 项 及 其 说 明 
mo a 项 说 Hj 备注 


在 使 用 flume — ng agent 命 令 启 动 一 个 Agent 


al Agent 的 名 字 

i: 时 ， 用 -n 选项 指定 要 使 用 的 Agent 名 字 

Kl; 用 于 界面 监控 
klavroSink 当前 同时 设置 了 两 个 Sink 
Aa ai avroSink; 用 于 Spark 接收 数据 
| 每 个 Sink 关联 一 个 Channel， 同 时 唯一 
cl c2 这 里 配置 了 两 个 Channel n VN D 
的 source;rl, ， 同 时 关联 到 这 两 个 Channel 

al. sources. rl. bind = wxx215 Source， 即 设置 了 数据 来 源 ， 通 过 在 使 用 Flume 提供 的 flume - ng avro — cli- 
al. sources. rl. port =4141 指定 的 hostname 与 port 来 获取 数据 ent 工具 时 ， 疝 该 指定 的 地 址 发 送 文 件 


al. sinks. avroSink. type = avro 


al. sinks. avroSink. hostname = wxx225 


这 是 Spark 用 来 接收 数据 的 配置 | ”该 接收 地 址 必须 在 Spark Streaming 调度 
B 


S 的 Workers 节点 上 
al. sinks. avroSink. port =4142 


(=) 应 用 程序 案例 与 解析 一 一 对 应 单 Receiver 场景 
应 用 程序 代码 ; 


package stream 


import org. apache. spark. SparkConf 
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import org. apache. spark. examples. streaming. StreamingExamples 
import org. apache. spark. storage. StorageLevel 
import org. apache. spark. streaming. _ 
import org. apache. spark. streaming. flume. _ 
import stream. util. IntParam © 
object FlumeEventCount | 
def main( args; Array[ String] ) | 
if (args. length « 2) | 
System. err. println( 
" Usage ; FlumeEventCount < host > < port >" ) 
System. exit(1) 
| 
// 屏 蔽 过 多 的 日 志 信 息 
import org. apache. log4j. | Level, Logger} 


Logger. getLogger( " org. apache. spark" ). setLevel( Level. WARN) 
Logger. getLogger( " org. apache. spark. sql" ). setLevel( Level. WARN) 
Logger. getLogger( " org. apache. spark. streaming" ). setLevel( Level. WARN) 
// 该 句 默认 情况 下 不 起 作用 
StreamingExamples. setStreamingLogLevels( ) 
val Array ( host , IntParam( port) ) = args 
// val batchInterval = Milliseconds (2000 ) 
val batchInterval = Seconds( 10) 
// Create the context and set the batch size 
val sparkConf = new SparkConf( ). setAppName( " FlumeEventCount" ) 
val ssc = new StreamingContext ( sparkConf , batchInterval ) 
// Create a flume stream 
val stream = FlumeUtils. createStream( ssc , host , port , StorageLevel. MEMORY, ONLY SER, 2) 
/ / Print out the count of events received from this server in each batch 
stream. count( ). map( ent =>" Received " + cnt +" flume events. " ). print( ) 
ssc. start( ) 


ssc. awaitTermination( ) 


| 


(三 ) 开始 案例 实践 与 解析 
1. 使 用 avro. conf 配置 属性 文件 ， 启 动 Flume Agent, 命令 如 下 : 


[ harli@ wxx215 apache - flume — 1. 5. 2 - bin] $. /bin/flume -ng agent - c conf - f. /harliconf/avro. conf 
-n al - Dflume. root. logger = INFO, console 


其 中 : 
1) =c: 指定 当前 配置 文件 的 目录 ， 设 置 为 conf。 
2) -fi 指定 当前 使 用 的 配置 文件 。 
3) -n: 指定 配置 文件 中 要 启动 的 Agent 名 字 。 
当 还 没有 启动 Spark Streaming 应 用 服务 时 ，Agent 向 avroSink 指定 的 地 址 发 送信 息 会 失 
败 ， 错 误 信 息 类 似 于 : 
15/04/15 14: 28: 40 ERROR flume. SinkRunner: Unable to deliver event. Exception follows. 


org. apache. flume. EventDeliveryException ; Failed to send events 
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Caused by: org. apache. flume. FlumeException; NettyAvroRpcClient | host: wxx225, port: 4142 | : RPC 


connection error 


Caused by: java. io. IOException ; Error connecting to wxx225/192. 168. 70. 225: 4142 


Caused by: java. net. ConnectException :拒绝 连接 
at sun. nio. ch. SocketChannelImpl. checkConnect( Native Method) 
at sun. nio. ch. SocketChannelImpl. finishConnect( SocketChannelImpl. java ;701 ) 


at: 


可 以 先 忽 略 ， 等 Spark Streaming 应 用 程序 启动 后 ， 打 开 Receiver 开始 接收 数据 后 ，A- 
gent 的 推送 数据 就 不 会 出 现 连接 失败 的 错误 了 。 

2. Avro 客户 端 模 拟 

Flume 内 部 提供 了 一 个 Avro Client 的 实现 ， 可 以 通过 avro - client 向 Agent 提供 数据 ， 发 
送 数据 的 avro - client 命令 ， 指 定 source - rl 的 hostname 和 port: 


./bin/flume - ng avro — client — — conf avro. conf - H wxx225 - p 4141 - F../test. xml — 
Dflume. root. logger = DEBUG, console( ) 


3. 启动 Spark Streaming 应 用 


. / bin/spark - submit | —— master spark: //192. 168. 70. 214: 7077 V 
—— deploy — mode client V 
—- driver - memory lg \ 


—- driver — cores 1 ^ 


total — executor — cores 3 V 
—- executor ~ memory lg \ 
—- class stream. FlumeEventCount V 
—- jars. /lib/spark — examples - 1. 3. 0 — hadoop2. 4. 0. jar \ 
. . / applications/testprojectide. jar wxx225 4142 


注意 : 这 里 的 host 和 port， 就 是 Flume Agent 的 avroSink 要 发 送 到 的 目的 地 址 ， 也 就 是 Worker 节点 
上 ， 构 建 Receiver 所 需要 的 地 址 。 

启动 后 ， 打 开 Web Interface 界面 (http: //wxx225: 4040) ， 其 中 ，wxx225 是 启动 应 用 的 
Driver Program 所 在 节点 。 可 以 看 到 Spark Streaming 应 用 增加 了 Streaming 的 信息 ， 如 图 4. 41 
所 示 。 
这 是 总 体 统计 信息 ， 包 含 了 以 下 内 容 : 

1) Receiver 个 数 ， 因 为 当前 只 设置 了 一 个 avroSink, ， 同 时 其 对 应 的 port 仅 配 置 了 一 个 ， 
因此 这 里 只 有 一 个 Receiver。 

2) Batch interval; 对 应 批 数 据 的 时 间 片 大 小 ， 这 里 是 代码 中 设置 的 10 秒 。 

3) Processed batches; 这 表示 到 目前 为 止 一 共处 理 了 多 少 批 数据 。 

4) Waiting batches; 等 待 处 理 的 批 数 据 个 数 。 

5) Received records: 接收 到 的 记录 条 数 。 

6) Processed records; 已 经 处 理 的 记录 条 数 。 
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Spa daD Jobs Stages Storage Environment Executors Streaming 


Streaming 


Started at: Wed Apr 15 14:29:00 CST 2015 
Time since start: 24 minutes 26 seconds 
Network receivers: 1 

Batch interval: 10 seconds 

Processed batches: 146 

Waiting batches: 0 

Received records: 19 

Processed records: 19 


图 4. 41 Spark Streaming 应 用 的 Streaming 界面 


再 下 面 是 一 些 统计 信息 ， 如 图 4. 42 所 示 。 


Statistics over last 100 processed batches 


Receiver Statistics 
Records in last batch 

Receiver Status Location [2015/04/15 14:53:26] 
FlumeHReceiver-D ACTIVE wison225 D 

Batch Processing Statistics 
Metric Last batch Minimum 25th percent 
Processing Time 65 ms 65 ms 89 ms 
Scheduling Delay 0 ms D ms Oms 
Total Delay 65 ms 65 ms 90 ms 


4.42 Spark Streaming 的 Streaming 界面 统计 信息 
这 是 Executor 页 面 的 信息 ， 如 图 4. 43 所 示 。 
Spark’ 130 Jobs Stages Storage Environment Executors Streaming FlumeEv 


Executors (4) 


Memory: 0.08 Used (2.1 GB Total) 
Disk: 0.0B Used 


Executor RDD Memory Disk Active Failed Complete Total Task Shuffle Shuffle Thread 

ID Address Blocks Used Used Tasks Tasks Tasks Tasks Time Input Read Write Logs Dump 

0 wison225:7900 0 008/5299 0.0B 1 0 58 59 34s 00B 51308 7.5KB stdout Thread 
MB stderr Dump 

1 wison223:19226 0 0.08/5299 0.0B 0 0 302 302 10.8s 00B 8.6KB 16.7KB stdout Thread 
MB stderr Dump 

2 wison215:41004 0 00B/5299 00B 0 0 278 278 2178 00B 74KB 14.6KB stdout Thread 
MB stderr Dump 

<driver> ^ wison225:2003 0 0.0B/5299 0.0B D 0 0 0 Oms 00B 0.0B 0.0B Thread 
MB Dump 


El 4.43 Spark Streaming 的 Executor 页 面 


可 以 看 到 ， 当 前 使 用 了 3 个 Executor。 其 中 Active Tasks 列 ， 对 应 了 Receiver 所 在 的 节 
点 。 也 是 我 们 在 配置 文件 中 指定 的 数据 avroSink 的 hostname 对 应 的 节点 。 
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4. 启动 Flume Avro Client 发 送 数据 
这 时 ， 对 应 的 Agent 界面 (BN kl 这 个 Sink) 输出 内 容 如 下 : 


15/04/15 15: 02: 14 INFO source. AvroSource :Avro source rl started. 

15/04/15 15 : 02: 32 INFO ipc. NettyServer: [ id : 0x32506a15 ,/192. 168. 70. 225 : 45288 
192. 168. 70. 215: 4141] OPEN 

15/04/15 15 : 02: 32 INFO ipc. NettyServer; [ id : 0x32506a15,/192. 168. 70.225 : 45288 => / 
192. 168. 70. 215: 4141] BOUND: /192. 168. 70. 215: 4141 

15/04/15 15 : 02: 32 INFO ipc. NettyServer; [ id : 0x32506a15 ,/192. 168. 70.225 : 45288 => / 
192. 168. 70. 215: 4141] CONNECTED :/192. 168. 70. 225: 45288 

15/04/15 15: 02: 33 INFO ipc. NettyServer; [ id : 0x32506a15,/192. 168. 70.225 : 45288: > / 


Il 
V 
SS 


192. 168. 70. 215: 4141 | 


15/04/15 15 : 02 : 33 


192. 168. 70. 215: 4141 | 


15/04/15 15 : 02 : 33 


192. 168. 70. 215: 4141 | 


DISCONNECTED 

INFO ipc. NettyServer; [ id 
UNBOUND 

INFO ipc. NettyServer; [ id 
CLOSED 


> 0x32506a15 ,/192. 168. 70. 225 : 45288; > 


> 0x32506a15 ,/192. 168. 70. 225 : 45288; > 


15/04/15 15:02:33 INFO ipc. NettyServer: Connection to /192. 168. 70. 225: 45288 disconnected. 
15/04/15 15: 02: 36 INFO sink. LoggerSink; Event; | headers: | } body :5B 32 30 31 35 2D 30 34 2D 31 


34 20 31 32 3A 30 


15/04/15 15: 02: 36 INFO sink. LoggerSink; Event; | headers: | } body;5B 32 30 31 35 2D 30 34 2D 31 
34 20 31 32 3A 30 [2015 -04 - 14 12:0 | 
15/04/15 15: 02: 36 INFO sink. LoggerSink; Event; | headers: | } body:5B 32 30 31 35 2D 30 34 2D 31 
34 20 31 32 3A 30 [2015 -04 - 14 12:0 | 
15/04/15 15: 02: 36 INFO sink. LoggerSink; Event; | headers: | } body:5B 32 30 31 35 2D 30 34 2D 31 


34 20 31 32 3A 30 


[2015 -04 -14 12:0 | 


[2015 -04 -14 12:0 | 


15/04/15 15: 02: 36 INFO sink. LoggerSink; Event; | headers: | } body:5B 32 30 31 35 2D 30 34 2D 31 
34 20 31 32 3A 30 [2015 -04 - 14 12:0 | 
15/04/15 15: 02: 36 INFO sink. LoggerSink; Event; | headers: | } body:5B 32 30 31 35 2D 30 34 2D 31 
34 20 31 32 3A 30 [2015 -04 - 14 12:0 | 


而 在 Spark Streaming 的 Driver 节点 上 ， 也 就 是 当前 启动 应 用 的 wxx225 节点 上 ， 也 会 有 
对 应 的 界面 输出 信息 ， 这 是 对 avroSink 收集 数据 的 处 理 结 
为 了 测试 Flume 与 Spark 间 的 收发 数据 ， 先 停止 应 用 程序 ， 停 止 期 间 使 用 Flume Avro 
Client 工具 发 送 两 次 文件 (一 个 文件 对 应 有 19 条 Event 记录 )， 然后， 开始 启动 应 用 程序 ， 
完全 启动 后 ， 再 使 用 Flume avroclient 工具 发 送 一 次 文件 ， 这 时 候 对 应 的 界面 信息 如 下 : 
[ harli@ wxx214 spark — 1. 3. 0 — bin — hadoop2. 4] $ . /bin/spark — submit 
spark: //192. 168. 70. 214: 7077 


—- driver ~ memory 1g 


total 


— — master 
— — deploy - mode client 


— - driver — cores 1 


executor — cores 3 — — executor ~ memory lg 
—- class stream. FlumeEventCount 

—- jars . /lib/spark — examples — 1. 3. 0 — hadoop2. 4. 0. jar 
wxx225 4142 

Spark assembly has been built with Hive, includingDatanucleus jars on classpath 

15/04/15 14: 11:05 WARN util. NativeCodeLoader: Unable to load native — hadoop library for your plat- 


form. . . 


. . /applications/testprojectide. jar 


using builtin — java classes where applicable 
15/04/15 14: 11: 06 INFO slf4j. Slf4jLogger ; Slf4jLogger started 
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15/04/15 14: 11: 06 INFORemoting : Starting remoting 

15/04/15 14:11:07 INFORemoting: Remoting started; listening on addresses: [ akka. tcp: //sparkDriver 
(9 wxx214: 53437 ] 
15/04/15 14: 11: 07 INFO server. Server:jetty — 8. y. z - SNAPSHOT 

15/04/15 14: 11: 07 INFO server. AbstractConnector : Started SocketConnector@ 0. 0. 0. 0: 59253 
15/04/15 14: 11: 07 INFO server. Server:jetty — 8. y. z - SNAPSHOT 

15/04/15 14: 11: 07 INFO server. AbstractConnector ; Started SelectChannelConnector@ 0. 0. 0. 0: 4040 


Time ; 1429078280000 ms 


Received 0 flume events. 


Time ; 1429078290000 ms 


Received 0 flume events. 


Time ; 1429078300000 ms 


Received38 flume events. 


Time ; 1429078310000 ms 


Received19 flume events. 


Time ; 1429078320000 ms 


Received 0 flume events. 
Hl, Flume 会 在 Channel 中 缓存 数据 直到 Sink 成 功 将 数据 推送 到 Spark 。 


在 Spark 1. 3 版 本 中 已 经 将 Flume 访问 放 到 External 部 分 ， 在 实际 执行 时 ， 不 用 将 依赖 
的 Flume 打包 进来 就 可 以 直接 提交 应 用 。 


定制 FlumeSink 的 拉 取 数据 案例 与 解析 B 


-一 


除了 基于 Flume 风格 的 推送 数据 的 方式 外 ， 还 可 以 使 用 定制 的 Sink， 基 于 拉 取 数据 的 方 
式 整 合 Flume 与 Spark Streaming。 使 用 拉 取 数据 的 方式 有 以 下 两 个 优点 : 

1) Flume 将 数据 推送 到 定制 的 Sink, 并 且 这 些 数据 会 被 缓存 起 来 。 

2) Spark Streaming 使 用 一 个 可 靠 的 Flume Receiver 和 事务 处 理 从 Sink 中 拉 取 数据 。 事 务 
仅仅 在 数据 接收 并 在 Spark Streaming 中 备份 后 才 算 成 功 。 

拉 取 数据 方式 相 比 第 一 种 方法 ， 可 以 确保 强 可 靠 性 以 及 增加 了 对 容错 方面 的 保证 。 

拉 取 数据 方式 的 一 般 性 的 要 求 : 需要 选择 一 台 机 器 ， 在 一 个 Flume Agent 上 运行 定制 的 
Sink, Spark 机 器 中 的 机 器 节点 必须 可 以 访问 和 运行 定制 Sink 的 这 人 台 机 器 。 

(一 ) 配置 Flume 

1. 在 负责 运行 定制 Sink 的 节点 上 ， 将 定制 的 Sink 对 应 的 jar 包 添 加 到 Flume 的 lib 路 


e 
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定制 的 Sink 对 应 的 jar 信息 如 下 : 


groupId = org. apache. spark 


artifactld = spark — streaming -flume - sink 2. 10 


version = 1. 3. 0 


可 以 到 Maven 仓库 手动 下 载 该 jar 包 。 
2. ZLE, X Flume Agent 设置 定制 的 Sink 相关 的 配置 信息 ， 信 息 内 容 如 下 所 示 : 


agent. sinks = spark 


agent. sinks. 
agent. sinks. 
agent. sinks. 


agent. sinks. 


其 中 : 


spark. type = org. apache. spark. streaming. flume. sink. SparkSink 
spark. hostname = < hostname of the local machine > 
spark. port = < port to listen on for connection from Spark > 


spark. channel = memoryChannel 


1) agent 对 应 Flume Agent 的 名 字 。 

2) Spark 对 应 定制 的 Sink 的 名 字 。 

3) org. apache. spark. streaming. flume. sink. SparkSink 对 应 的 是 定制 Sink 的 类 名 ， 由 于 不 
是 Flume 内 置 的 Snk， 因 此 需要 使 用 全 路 径 。 

4) memoryChannel 对 应 定制 的 Sink 所 关联 的 Channel 名 字 。 

5) hostname 与 port 是 接收 数据 的 机 器 信息 。 

(=) Flume +Spark Streaming 实践 案例 与 解析 

同样 ， 整 合 应 用 程序 也 需要 添加 sparkSpark - streaming — flume_2. 10 依赖 包 。 对 应 的 部 


署 方式 也 一 样 。 


(三 ) Flume Agent 配置 案例 与 解析 

复制 基于 Flume 风格 的 推送 数据 方式 中 的 配置 文件 avro. conf 为 spark. conf。 然 后 ， 将 其 
中 的 Sink 的 名 字 avroSink 修改 为 sparkSink ， 同 时 ， 修 改 该 Sink AY type 信息， 由 avro 修改 为 
定制 的 Sink, ， 即 org. apache. spark. streaming. flume. sink. SparkSink 。 

对 应 的 配置 文件 内 容 如 下 : 


[ harli@ wxx215 apache — flume - 1. 5. 2 — bin] $ vim harliconf/spark. conf 


al. sources = rl 


al. sinks = kl sparkSink 


al. channels 2 c1 c2 


# Describe/configure the source 


al. sources. rl. type = avro 

al. sources. rl. bind = wxx215 
al. sources. rl. port 24141 

# Describe the sink 

al. sinks. kl. type = logger 


al. sinks. sparkSink. type = org. apache. spark. streaming. flume. sink. SparkSink 


al. sinks. sparkSink. hostname = wxx215 
al. sinks. sparkSink. port 24142 


# Use a channel which buffers events in memory 


al. channels. cl. type = memory 
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al. channels. cl. capacity = 1000 

al. channels. c1. transactionCapacity = 100 

al. channels. c2. type 2 memory 

al. channels. c2. capacity = 1000 

al. channels. c2. transactionCapacity = 100 S 
# Bind the source and sink to the channel 

al. sources. rl. channels 2 c1 c2 

al. sinks. k1. channel = cl 

al. sinks. sparkSink. channel = c2 


配置 文件 中 ,重点 关注 sparkSink 的 属性 配置 ， 这 里 配置 为 Agent 所 在 的 hostname, 
Spark Streaming 应 用 启动 后 ， 通 过 该 hostname 和 port 信息 ， 拉 取信 息 。 
当前 配置 文件 中 的 配置 对 应 的 数据 流 如 图 4. 44 所 示 。 


console 


Source-rl 
(wxx215:4141) 


Sink-avroSink 
(wxx215:4142) 


Flume avro client 


图 4.44 ”当前 配置 对 应 的 数据 流 图 


用 新 配置 的 属性 文件 spark. conf， 启 动 Flume Agent: 


[ harli@ wxx215 apache - flume - 1. 5. 2 — bin] $ ./bin/flume -ng agent - c conf -f ./harliconf/ 
spark. conf -n al - Dflume. root. logger = INFO , console 


15/04/15 16: 34:03 ERROR node. PollingPropertiesFileConfigurationProvider ; Failed to load configura- 
tion data. Exception follows. 
org. apache. flume. FlumeException ; Unable to load sink type:org. apache. spark. streaming. flume. sink. 


SparkSink , class; org. apache. spark. streaming. flume. sink. SparkSink 


由 于 sparkSink 上 定制 的 Sink， 不 是 Flume 内 置 的 ， 使 用 时 ， 需 要 先 将 定制 的 Sink 对 应 
的 jar 包 (spark -streaming — flume - sink_2. 10 -1.3.0.jar) 添加 到 启动 Agent 时 的 CLASS- 
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PATH 路 径 下 ， 这 里 复制 到 $ FLUME HOME/lib 路 径 下 : 


[ harli@ wxx215 lib] $ cp /usr/harli/spark - streaming -flume -sink 2.10 -1.3.0.jar ./ 

[ harli@ wxx215 apache - flume - 1. 5.2 - bin] $ ls . /lib/spark — streaming — flume - sink, 2. 10 
一 1.3. 0. jar 

. /lib/spark - streaming — flume - sink 2. 10 - 1. 3. 0. jar 

[ harli@ wxx215 apache — flume - 1. 5. 2 - bin] $ 


重新 启动 Agent， 启 动 过 程 会 出 现 一 些 类 找 不 到 的 错误 提示 ， 这 是 因为 定制 的 Sink 所 在 
AY jar 包 依赖 了 Scala 的 jar 包 和 Spark 的 jar 包 。Flume 中 用 到 了 Hadoop 的 类 库 ， 启 动 Flume 
Agent 时 会 自动 去 识别 环境 变量 $ HADOOP_HOME ， 然 后 添加 Hadoop 的 类 库 到 Flume 运行 
的 CLASSPATH 下 ， 可 以 参看 启动 Agent 时 ， 界 面 输出 信息 中 的 CLASSPATH 内 容 ， 是 包含 
hadoop lib 下 的 jar 包 的 ， 也 就 是 说 ， 如 果 环 境 中 没有 配置 Hadoop 的 环境 变量 $ HADOOP_ 
HOME， 启 动 Agent 时 也 会 报 类 找 不 到 的 错误 。 而 对 应 的 Scala 和 Spark 类 库 ， 则 是 因为 引入 
定制 的 Sink 才 需 要 的 ， 因 此 默认 情况 下 是 不 会 自动 识别 $ SCALA_HOME F $ Spark HOME 
这 两 个 环境 变量 ， 然 后 自动 添加 所 需 jar 包 到 Flume 的 CLASSPATH 路 径 下 的 。 

这 本 机 上 测试 时 ， 错 误 信 息 如 下 : 

1， 找 不 到 Scala 类 的 错误 信息 


15/04/15 06: 17: 33 ERROR node. PollingPropertiesFileConfigurationProvider: Failed to start agent be- 


cause dependencies were not found in classpath. Error follows. 


java. lang. NoClassDefFoundError : scala/Functionl 
at java. lang. Thread. run( Thread. java:745 ) 


Caused by: java. lang. ClassNotFoundException : scala. Function 


2. 找 不 到 Spark 类 的 错误 信息 


15/04/15 06: 14: 40 ERROR lifecycle. LifecycleSupervisor; Unable to start SinkRunner; | policy: 
org. apache. flume. sink. DefaultSinkProcessor@ 3e7dad3b counterGroup: | name;null counters; |] | | 
— Exception follows. 
java. lang. NoClassDefFoundError ; org/spark — project/guava/util/concurrent/ThreadFactory Builder 

at java. lang. Thread. run( Thread. java:745 ) 
Caused by: java. lang. ClassNotFoundException : org. spark 一 


project. guava. util. concurrent. ThreadFactoryBuilder 


解决 方法 ， 是 将 Scala 和 Spark 的 类 库 放 入 Flume 的 CLASSPATH (对 应 用 Java 命令 执行 
时 的 -cp 选项 ) 下 ， 上 有 具体 步 又 如 下 : 

1) 编辑 Flume 的 环境 变量 配置 文件 conf/flume — env. sh, 

2) 将 Scala 和 Spark 的 lb 类 库 添 加 到 环境 变量 ， 如 下 所 示 : 


#FLUME_CLASSPATH = "" 
FLUME_CLASSPATH =" $ SCALA_HOME/lib/ * ; $ Spark _HOME/lib/ * " 


在 启动 过 程 中 ， 还 可 能 会 出 现 以 下 错误 ， 如 Flume 的 方法 找 不 到 的 错误 信息 : 
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15/04/15 06: 46: 06 ERROR node. PollingPropertiesFileConfigurationProvider ; Unhandled error 
java. lang. NoSuchMethodE:rror: org. apache. flume. Context. getSubProperties ( Ljava/lang/ String; ) Lcom/ 
google/common/collect/ImmutableMap ; 


at java. lang. Thread. run( Thread. java 745 ) © 


在 启动 时 ,将 -c 选项 设置 为 Flume 的 conf 即 可 。 

小 技巧 : 在 vim 中 替换 全 局 的 字符 串 ， 可 以 使 用 “s/avroSink/sparkSink/g” 这 种 方式 ， 
会 将 文件 文件 中 第 一 个 字符 “avroSink” 全 部 替换 为 “sparkSink”; 输入 /string 可 以 搜索 
string FIFE, MA n 可 以 查找 下 一 个 。 具 体 请 参考 vim 使 用 手册 。 

修改 CLASSPATH 成 功 ， 指 定 sparkSink 的 “host port”， 再 次 启动 Spark Streaming 应 
用 ， 比 如 : 


. / bin/spark - submit — —— master spark: //192. 168. 70. 214: 7077 \ 
—- deploy - mode client ^ 
—- driver ~ memory lg \ 


—-— driver — cores 1 \ 


total — executor — cores 2 V 
—- executor — memory lg ^ 
—- class stream. FlumePollingEventCount \ 
—- jars . /lib/spark — examples — 1. 3. 0 - hadoop2. 4. 0. jar. V 
. . /applications/ testprojectide. jar wison225 4142 


再 次 向 source ^ rl 指定 的 “host: port” 发 送 数据 ; 


[ harli@ wison225 apache — flume -1.5.2 — bin] $ ./bin/flume -ngavro -client — c. - H wison215 
-p4141 -F .. /test/log. txt 


查看 Driver 的 Web Interface 界面 (http: //wxx215: 4040) 的 Streaming 页 面 ， 如 图 4.45 
所 示 。 


Spa 428 Jobs Stages Storage Environment Executors Streaming 


Streaming 


Started at: Thu Apr 16 15:34:19 CST 2015 
Time since start: 2 minutes 34 seconds 
Network receivers: 1 

Batch interval: 10 seconds 

Processed batches: 16 

Waiting batches: 0 

Received records: 38 

Processed records: 38 


图 4.45 Spark Streaming 的 Streaming 页 面 
以 上 是 定制 Sink 在 单 Receiver 的 使 用 场景 ， 下 面 给 出 定制 Sink 在 两 种 场景 下 ，Flume 


的 配置 及 相应 代码 的 案例 实践 与 解析 ， 注 意 拉 取 方式 下 定制 Sink 的 host: port 的 设置 ， 参 考 
单 Receiver 案例 即 可 。 这 里 采用 单机 方式 进行 案例 实践 ， 此 时 ， 需 要 注意 的 是 ， 要 通过 port 
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来 区 分 不 同 的 Source, Channel, Sink, 

(四 ) 共享 Channel 场景 下 的 多 并 行 度 的 应 用 程序 案例 与 解析 

在 实际 企业 级 应 用 场景 下 ， 为 了 提高 接收 数据 的 并 行 度 ， 需 要 相应 的 增加 推送 数据 的 
Sink 配置 。 需 要 注意 的 是 ，Flume 在 推送 数据 时 ， 是 在 Sink 推送 后 ， 就 清除 掉 Channel 里 的 
数据 ， 因 此 ， 如 果 两 个 Sink 关联 到 同一 个 Channel 的 话 ， 实 际 推送 时 ， 就 相当 于 队列 分 发 模 
式 列 。 下 面 如 测试 这 种 情况 。 

这 里 在 自己 的 集群 (AX Cluster01 节点 的 分 布 式 集群 ) 上 测试 ， 配 置 文件 c2Spark. conf 
如 下 : 


# Describe/configure the source 

al. sources. rl. type = avro 

al. sources. rl. channels = cl 

al. sources. rl. bind = cluster01 

al. sources. rl. port =4141 

# Describe the sink 

al. sinks. k1. type = logger 

al. sinks. sparkSink. type = org. apache. spark. streaming. flume. sink. SparkSink 
al. sinks. sparkSink. hostname = cluster01 

al. sinks. sparkSink. port =4142 

al. sinks. sparkSink2. type = org. apache. spark. streaming. flume. sink. SparkSink 
al. sinks. sparkSink2. hostname = cluster01 

al. sinks. sparkSink2. port =4143 

# Use a channel which buffers events in memory 
al. channels. cl. type = memory 

al. channels. cl. capacity = 1000 

al. channels. cl. transactionCapacity = 100 

al. channels. c2. type = memory 

al. channels. c2. capacity = 1000 

al. channels. c2. transactionCapacity = 100 

# Bind the source and sink to the channel 

al. sources. rl. channels = cl c2 

al. sinks. k1. channel = c1 

al. sinks. sparkSink. channel = c2 


al. sinks. sparkSink2. channel = c2 


注意 这 里 sparkSink2 的 配置 和 sparkSink 基本 一 样 ， 和 sparkSink 使 用 了 相同 的 channel - c2 ， 唯 一 不 
同 的 地 方 在 于 port 的 设置 (这 是 因为 当前 在 一 台 机 器 上 )。 
启动 Flume Agent: 


[ harli@ cluster01 flume] $ — ./bin/flume -ng agent — c conf —f . /harliconf/errorspark. conf — n al 
— Dflume. root. logger = INFO, console 

Info: Sourcing environment configuration script /home/harli/cluster/flume/conf/flume — env. sh 

Info: IncludingHadoop libraries found via (/home/harli/cluster/hadoop/bin/hadoop) for HDFS access 
Info: Excluding /home/harli/cluster _ 13/hadoop/share/hadoop/common/lib/slf4j — api — 1.7. 5. jar 
from classpath 

Info; Excluding /home/harli/ cluster_13/hadoop/share/hadoop/common/lib/slf4j — log4j12 — 1. 7. 5. jar 


from classpath 
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启动 过 程 中 ， 虽 然 配置 文件 中 两 个 Sink 关联 到 了 同一 个 Channel， 但 启动 不 会 报错 或 


Ug 


He 
Ho 
打开 两 个 终端 ， 启 动 两 个 Spark Streaming 应 用 : 


[ harli@ cluster01 spark] $ ./bin/spark - submit — —— master spark: //cluster01: 7077 S 
—- deploy - mode client 


driver - memory 1g 
—- driver — cores 1 total 


executor — cores 2 
—-— executor — memory 1g —— class stream. FlumePollingEventCount 


—- jars . /lib/spark — examples — 1. 3. 0 — hadoop2. 4. 0. jar 


. . / applications/testprojectide. jar cluster01 4142 
Spark assembly has been built with Hive, includingDatanucleus jars on classpath 


[ harli@ cluster01 spark] $ . /bin/spark ~ submit — —— master spark: //cluster01: 7077 
—- deploy - mode client driver - memory 1g 
—- driver — cores 1 total 


executor — cores 2 
—— executor — memory 1g 


—- jars . /lib/spark — examples - 1. 3. 0 — hadoop2. 4. 0. jar 


—- class stream. FlumePollingEventCount 


. . / applications/testprojectide. jar cluster01 4143 
Spark assembly has been built with Hive, includingDatanucleus jars on classpath 


查看 Master 的 Web Interface 界面 (http: //cluster01: 8080/) ， 如 图 4. 46 所 示 。 可 以 看 到 
同时 运行 了 两 个 Spark streaming 应 用 程序 。 


Qo > | @ ctustero1:3080 


Spak a30 Spark Master at spark://cluster01:7077 


URL: spark://cluster01:7077 
REST URL: spark://cluster01:6066 (cluster mode) 
Workers: 1 
Cores: 4 Total, 4 Used 
Memory: 2.7 GB Total, 2.0 GB Used 
Applications: 2 Running, 4 Completed 
Drivers: 0 Running, 0 Completed 
j Status: ALIVE 


Workers 

Worker Id Address State Core 
worker-20150415043845-cluster01-48448 cluster01:48448 ALIVE 4(4 
Running Applications 

Application ID Name Cores Memory per Node Submitted T 
app-20150415071733-0005 FlumePollingEventCount 2 1024.0 MB 2015/04/15 ( 
app-20150415071720-0004 FlumePollingEventCount 2 1024.0 MB 2015/04/15 ( 


图 4.46 Spark Streaming 的 应 用 信息 


各 自 单 击 应 用 程序 的 名 字 ， 进 入 Spark Streaming 应 用 的 Driver 的 Web Interface 界面 ， 打 


JF Streaming 页 面 ， 如 图 4.47 所 示 。 持 续 一 段 时 间 后 ，Streaming 页 面 信 息 的 变更 为 如 图 
4.48 所 示 。 


两 个 Spark Streaming 应 用 程序 都 收 到 了 从 Channel - c2 上 拉 取 过 来 的 数据 。 
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| |@ cluster01:4041/streaming/ 


Spaik® Y Jobs Stages Storage Environment Executors Streaming 


Streaming 


Started at: Wed Apr 15 07:17:34 PDT 2015 
Time since start: 13 minutes 59 seconds 
Network receivers: 1 

Batch interval: 10 seconds 

Processed batches: 84 

Waiting batches: 0 

Received records: 60 

Processed records: 60 


4.47 Spark Streaming 的 应 用 的 Streaming 页 面 信息 


Ge | @ cluster01:4040/streaming/ 


Spark dum Jobs Stages Storage Environment Executors Streaming 


Streaming 


Started at: Wed Apr 15 07:17:20 PDT 2015 
Time since start: 16 minutes 23 seconds 
Network receivers: 1 

Batch interval: 10 seconds 

Processed batches: 98 

1 Waiting batches: 0 

Received records: 75 

Processed records: 75 


图 4.48 一 段 时 间 后 Streaming 页 面 信 息 的 变更 


(五 ) Sink 与 Channel 一 对 一 场景 下 的 多 并 行 度 的 应 用 程序 案例 与 解析 

一 般 情况 下 ， 为 了 提高 集群 的 资源 使 用 率 。 应 用 程序 的 性 能 等 ， 都 需要 同时 启动 多 个 
Receivers， 增 加 数据 接收 的 并 行 度 ， 下 面 在 单 Receiver 基础 上 给 出 新 增 一 个 Receiver 的 案例 
及 分 析 。 

还 可 以 更 进一步 ， 即 在 一 个 Agent 上 添加 一 个 新 的 Resource， 从 整 条 数据 流 上 增加 并 行 
度 ， 在 方法 上 一 样 的 。 这 里 为 了 简化 ， 只 简单 添加 新 的 Sink 和 Channel 

当然 ， 企 业 级 别 在 实际 应 用 时 ， 可 以 为 各 个 数据 源 都 配置 一 个 Agent 来 收集 数据 ， 只 要 
将 配置 文件 复制 过 去 ， 然 后 启动 Agent 即 可 。 

Flume 的 配置 multispark. conf; 


al. sources = rl 

al. sinks = kl sparkSinksparkSkink2 

al. channels = cl c2c3 

# Describe/configure the source 

al. sources. rl. type = avro 

al. sources. rl. bind = cluster01 

al. sources. rl. port = 4141 

# Describe the sink 

al. sinks. k1. type = logger 

al. sinks. sparkSink. type = org. apache. spark. streaming. flume. sink. SparkSink 


第 4 章 Spark Streaming KERI ARH 


al. sinks. sparkSink. hostname = cluster01 

al. sinks. sparkSink. port =4142 

al. sinks. sparkSkink2. type = org. apache. spark. streaming. flume. sink. SparkSink 
al. sinks. sparkSkink2. hostname = cluster01 

al. sinks. sparkSkink2. port = 4143 S 
# Use a channel which buffers events in memory 

al. channels. cl. type = memory 

al. channels. cl. capacity = 1000 

al. channels. c1. transactionCapacity = 100 

al. channels. c2. type 2 memory 

al. channels. c2. capacity = 1000 

al. channels. c2. transactionCapacity = 100 

al. channels. c3. type = memory 

al. channels. c3. capacity = 1000 

al. channels. c3. transactionCapacity = 100 

# Bind the source and sink to the channel 

al. sources. rl. channels = cl c2 

al. sinks. k1. channel = c1 

al. sinks. sparkSink. channel = c2 

al. sinks. sparkSink2. channel = c3 


配置 文件 中 ， 增 加 了 一 个 新 的 Sink - sparkSink2, ， 和 新 的 channel - c3 ， 并 将 这 两 者 关联 
起 来 。 
应 用 程序 代码 : 


package stream 
import org. apache. spark. SparkConf 
import org. apache. spark. examples. streaming. StreamingExamples 
import org. apache. spark. streaming. _ 
import org. apache. spark. streaming. flume. _ 
import stream. util. IntParam 
object MultiFlumePollingEventCount | 
def main( args: Array[ String] ) | 
if (args. length < 2) | 
System. err. println( 
" Usage: FlumePollingEventCount. € host: port > < host: port >" ) 
System. exit(1) 


1 
j 


// 屏 项 过 多 的 日 志 信 息 
import org. apache. log4j. | Level , Logger} 


Logger. getLogger( " org. apache. spark" ). setLevel( Level. WARN) 
Logger. getLogger( " org. apache. spark. sql" ). setLevel( Level. WARN) 
Logger. getLogger( " org. apache. spark. streaming" ). setLevel( Level. WARN) 
// 该 句 默认 情况 下 不 起 作用 
StreamingExamples. setStreamingLogLevels( ) 
val batchInterval = Seconds( 10) 
// 以 指定 的 批 处 理 时 间 间 隔 创 建 StreamingContext 实例 
val sparkConf = new SparkConf( ). setAppName( " FlumePollingEventCount" ) 
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val ssc = new StreamingContext( sparkConf , batchInterval ) 

// 这 里 根据 输入 的 host: port 数组 ,分 别 构建 一 个 flume 流 ， 
// 从 运行 中 Flume Agent 上 的 SparkSink 上 拉 取 数据 

// 并 且 将 这 几 个 flume 流 合并 为 一 个 流 进行 处 理 。 


valflumeStreams = args. map | arg => 


val Array( host , IntParam( port) ) = arg. split(" :" ) 
FlumeUtils. createPollingStream( ssc , host , port) 
| 
val unifiedStream = ssc. union( flumeStreams ) 
// 打 印 接收 到 的 批 数 据 的 event 数 ,也 就 是 记录 条 数 
unifiedStream. count( ). map( cnt => "Received " +cnt +" flume events. " ). print( ) 
// 打 印 的 是 类 信息 org. apache. spark. streaming. flume. SparkFlumeEvent@ 38f8 e8f8 
// 应 该 针对 该 类 型 SparkFlumeEvent ,进行 具体 处 理 。 
//unifiedStream. print( ) 


ssc. start( ) 


ssc. awaitTermination( ) 
| 
| 


启动 应 用 命令 如 下 : 


[ harli@ cluster01 spark] $ . /bin/spark -submit — —— master spark ;//cluster01: 7077 

—— deploy - mode client —- driver - memory lg 

—- driver — cores 1 total — executor — cores 3 

—-— executor — memory 1g —- class stream. MultiFlumePollingEventCount 

—- jars . /lib/spark — examples - 1. 3. 0 - hadoop2. 4. 0. jar ../applications/ 


testprojectide. jar cluster01 :4142 cluster01 :4143 


参数 cluster01: 4142 cluster01: 4143 对 应 两 个 SparkSink 设置 的 hostname 和 port 信息 。 在 
刚 开 始 启 动 时 ， 会 多 次 尝试 连接 ， 这 时 候 连 接 失 败 的 信息 可 以 忽略 。 
然后 启动 Flume avro - client 客户 端 ， 发 送 数据 : 
[ harli @ cluster01 flume] $ ./bin/flume ~ ngavro - client - c. H clusterOl -p 4141 - F ../ 
test/log. txt 
打开 查看 Driver 的 Web Interface 界面 (http: //clulster01 :4040) ， 查 看 Streaming 页 面 信 
息 ， 如 图 4. 49 所 示 。 


Qo @ cluster01:4040/streaming/ "Q9 
Spake ‘aa Jobs Stages Storage Environment Executors Streaming 
Streaming 


Started at: Wed Apr 15 07:59:26 PDT 2015 
Time since start: 7 minutes 23 seconds 
Network receivers: 2 

Batch interval: 10 seconds 

Processed batches: 44 

Waiting batches: 0 

Received records: 63 

Processed records: 63 


4.49 Spark Streaming 应 用 的 Streaming 页 面 信息 
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可 以 看 到 已 经 接收 并 处 理 列 63 条 记录 信息 。 
在 多 次 快速 启动 Flume avro - client 客户 端 ， 发 送 数据 后 ， 发 现 应 用 程序 接收 不 到 数据 ， 
这 时 ， 查 看 对 应 的 Agent 的 输出 日 志 ， 会 发 现 如 下 报错 信息 : 


2015 - 04 - 15 08: 17: 37, 353 (Spark Sink Processor Thread - 9) | WARN - © 
org. apache. spark. streaming. flume. sink. Logging $ class. logWarning ( Logging. scala: 80) ] Error = 
while processing transaction. 

org. apache. flume. ChannelException ; Take list for MemoryTransaction, capacity 100 full, consider 


committing more frequently , increasing capacity , or increasing thread count 


2015 - 04 - 15 08: 17: 37, 355 (Spark Sink Processor Thread - 9) [ WARN - 
org. apache. spark. streaming. flume. sink. Logging $ class. logWarning ( Logging. scala: 59) | Spark 


was unable to successfully process the events. Transaction is being rolled back. 


从 界面 日 志 信息 中 可 以 看 出 ， 由 于 当前 Channel 设置 的 MemoryTransaction 太 小 ， 空 间 已 
满 ， 导 致 无 法 接收 数据 。 在 企业 级 实际 应 用 中 ， 需 要 根据 实际 情况 设置 足够 的 Channel 空间 
(这 里 是 使 用 内 存 进行 缓存 ， 还 可 以 使 用 其 他 方式 ， 具 体 参 考 Flume 的 官方 文档 说 明 ) 。 

需要 注意 的 是 ， 在 出 现 以 上 错误 之 后 ，Spark Streaming 就 不 能 继续 接收 数据 了 ， 本 机 测 
试 时 ， 即 使 重启 Spark Streaming 应 用 ， 也 不 能 继续 使 用 。 对 应 的 Agent AY Sink - k1, BH con- 
sole 输出 部 分 ， 还 能 正常 运行 。 


ENS 性 能 调 优 


从 更 高 层面 上 来 讲 ， 性 能 调 优 需要 考虑 以 下 两 个 方面 : 
1) 应 该 尽 可 能 利用 集群 资源 来 减少 每 个 批 处 理 的 时 间 。 
2) 批 处 理 的 数据 大 小 应 该 尽量 合理 ， 保 证 接收 到 的 数据 能 及 时 处 理 掉 。 


减少 批 处 理 的 时 间 


减少 批 处 理 时 间 ， 在 调 优 指南 上 也 对 细节 做 了 一 定 的 分 析 ， 这 里 着 重 分 析 比 较 重 要 的 几 
个 方面 。 

一 、 在 数据 接收 上 的 并 行 度 

1. Input DStream 的 并 行 度 

通过 网 络 从 各 种 数据 源 (El Kafka, Flume, Socket 等 ) 接收 数据 时 ， 会 要 求 将 数据 反 序 
列 化 并 存储 到 Spark。 如 果 数 据 接收 这 块 变 成 系统 瓶颈 的 话 ， 就 应 该 考虑 提高 数据 接收 的 并 
行 度 了 。 

注意 : 每 个 mput DStream 创建 一 个 Receiver. (运行 在 每 个 Worker 节点 上 ) ， 因 此 只 接收 一 个 数据 流 ， 
因此 可 以 通过 构建 多 个 Input DStreams， 并 且 进 行 配置 ， 让 它们 从 来 自 数 据 源 的 流 数 据 的 不 同 分 区 接收 数 
据 ， 相 应 地 ， 数 据 源 提供 的 分 区 个 数 也 就 成 了 Input DStream 并 行 度 的 最 大 值 了 。 

最 后 可 以 将 创建 的 多 个 DStream 合并 为 单个 DStream 进行 处 理 。 
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2. 任务 的 并 行 度 一 一 对 应 RDD 的 分 区 数 

与 并 行 度 相 关 的 男 一 个 需要 考虑 的 配置 参数 是 spark. streaming. blockInterval ， 这 是 Re- 
ceiver 的 块 时 间 间 隔 。 对 大 部 分 的 Receivers ， 接 收 到 的 数据 在 存储 到 Spark 内 存 之 前 ， 会 先 
合并 到 blocks 中 。 而 这 个 块 的 个 数 ， 就 对 应 了 批 数据 ， 也 就 是 RDD 的 分 区 数 ， 也 就 是 RDD 
的 并 行 任务 (task) 数 了 。 

KE, tasks 的 并 行 度 大 致 等 于 “ 批 数据 的 时 间 片 /接收 块 的 时 间 间 隔 ”。 比 如 ， 块 间隔 
时 间 为 200 毫秒 ， 时 间 片 为 2 秒 时 ， 对 应 的 tasks 就 是 2000 毫秒 /200 上 毫秒， 也 就 是 并 行 的 
tasks 个 数 为 0。 如果 这 里 并 行 的 tasks 数 远 小 于 集群 可 用 的 内 核 数 ， 则 效率 较 低 。 因 此 ， 在 
给 定 的 批 数据 时 间 片 前 提 下 ， 需 要 修改 块 的 时 间 间 隔 ， 也 就 是 spark. streaming. blockInterval , 
来 提高 tasks 的 并 行 度 。 

一 般 建 议 将 块 的 时 间 的 最 小 值 设 置 为 50 毫秒 ， 如 果 再 低 的 话 ，task 启动 的 开销 就 会 
增加 。 

3. 显示 修改 并 行 度 
另 一 个 可 选 的 方法 是 ， 从 多 输入 流 Receivers 接收 数据 时 ， 显 示 地 调用 重 分 区 的 方法 
(inputStream. repartition 方法 ) 。 这 样 可 以 在 进一步 处 理 数 据 之 前 ， 先 把 在 指定 数量 的 节点 上 
接收 到 的 数据 分 发 到 集群 上 。 

二 、 在 数据 处 理 上 的 并 行 度 

如 果 计 算 过 程 中 任何 一 个 Stage 的 任务 并 行 度 不 够 高 的 话 ， 可 能 会 导致 集群 资源 没有 被 
充分 地 利用 起 来 。 

比如 ， 针 对 Key - Value 类 型 的 DStream 的 一 些 聚 合 操作 ， 如 reduceByKey 和 reduce- 
ByKeyAndWindow 等 (与 RDD 类 似 ， 对 应 地 在 隐 式 转化 的 PairDStreamFunctions 类 中 ) ， 其 分 
区 器 使 用 的 是 默认 的 分 区 器 ， 默 认 分 区 器 的 构建 可 以 参考 章节 2.2.9 分 区 数 设置 的 案例 与 源 
码 解析 部 分 ， 可 以 通过 配置 spark. default. parallelism 属性 ,来 提高 分 区 器 的 分 区 个 数 ， 当 
然 ， 也 可 以 通过 指定 APL 中 的 并 行 度 参 数 来 显示 设置 。 

=, Data Serialization 

可 以 通过 优化 序列 化 的 格式 来 减少 数据 序列 化 的 开销 。 在 Spark Streaming 中 ， 有 两 类 数 
据 会 被 序列 化 。 

1. 输入 数据 
默认 情况 下 ， 通 过 Receivers 接收 的 输入 数据 会 被 存储 在 Executor 的 内 存 中 ， 默 认 的 存 
储 级 别 为 StorageLevel. MEMORY_AND_DISK_SER_2。 这 是 因为 ， 将 数据 序列 化 ( SER) 成 
bytes 可 以 减少 GC 的 开销 ， 而 数据 的 备份 (2) 是 为 了 针对 Executor 故障 的 容错 性 。 

序列 化 数据 明显 是 有 一 定 的 开销 的 ， 首 先 Receiver 必须 将 接收 到 的 数据 反 序 列 化 ， 然 后 
再 使 用 Spark 指定 的 序列 化 格式 将 数据 序列 化 。 

2. 在 Spark Streaming 操作 中 的 RDD 持久 化 

流 计算 过 程 中 产生 的 RDD 可 能 会 被 持久 化 到 内 存 中 。 比 如 ， 窗 口 类 的 操作 为 了 重复 处 
理 数 据 ， 会 将 数据 持久 化 到 内 存 中 。 这 和 Spark 内 核 中 RDD 默认 的 持久 化 是 不 一 样 的 ， 
RDD 默认 是 使 用 StorageLevel. MEMORY. ONLY 进行 持久 化 。 

另外 ， 在 窗口 类 的 操作 过 程 中 ， 是 默认 进行 持久 化 的 ， 而 RDD 的 持久 化 是 需要 人 为 触 
发 的 。 
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这 两 种 情况 下 的 持久 化 一 般 都 应 该 使 用 Kryo 序列 化 ， 这 样 可 以 减少 CPU 和 内 存 的 
开销 。 

比较 特殊 的 情况 下 ， 可 以 将 数据 以 反 序列 化 对 象 进行 持久 化 ， 只 要 不 会 引起 高 昂 的 GC 开 
销 即 可 。 比 如 ， 如 果 批 同 隔 只 设置 成 几 秒 (对 应 数据 量 比较 小 ) ， 就 可 以 通过 显示 地 设 定 存储 (O) 
级 别 ， 去 除数 据 持久 化 中 的 序列 化 。 以 减少 由 于 序列 化 引起 的 CPU 开销 ， 进 而 提高 性 能 。 

四 、Task Launching Overheads 

如 果 每 秒 钟 启动 的 task 数 过 高 ( 比如， 每 秒 启 动 50 次 或 更 多 时 )， 相 应 地 ， 向 Slaves 
发 送 tasks 的 开销 就 比较 大 了 ， 这 会 导致 很 难 实现 亚 秒 级 的 延迟 。 可 以 通过 以 下 修改 来 减低 
这 种 开销 : 

1. task 的 序列 化 : 使 用 Kryo 序列 化 机 制 来 序列 化 task, HIRD task 的 大 小 ， 因 此 也 减 
少 了 向 Slaves 发 送 的 时 间 了 。 

2. 执行 模式 (Execution Mode); task 在 Standalone 模式 或 coarse - grained Mesos 模式 下 
的 启动 时 间 ， 比 在 fine - grained Mesos 模式 下 要 少 很 多 。 具 体 可 以 从 官方 网 站 上 ， 在 Mesos 
上 运行 的 指南 中 获取 更 详细 的 信息 。 

这 些 修改 ， 可 以 将 批 处 理 时 间 减 少 到 几 百 毫秒 ， 进 而 达到 亚 秒 级 的 处 理 。 


设置 正确 的 批 间 隔 ) 


想 要 Spark Streaming 应 用 程序 能 稳定 地 在 集群 中 运行 ， 系统 必须 能 够 尽 可 能 快 地 处 理 接 
收 到 的 数据 。 也 就 是 说 ， 一 旦 批 数 据 生 成 就 应 该 尽快 处 理 掉 。 

我 们 可 以 从 Streaming 的 Web Interface 监控 界面 上 查看 相关 信息 ， 针 对 Spark Streaming 
应 用 程序 ，Spark 自 带 的 Driver 的 Web Interface 界面 上 会 相应 地 增加 一 个 Streaming 相关 信息 
BJ tab 页面， 其 中 包含 了 两 个 重要 的 性 能 度量 指标 : 

1) 处 理 时 间 (Processing Time) : 即 批 数据 的 处 理 时 间 。 

2) 调度 延迟 (Scheduling Delay) : 即 每 个 批 数 据 在 队列 中 等 待 前 一 个 批 数 据 人 处 理 完成 
所 等 待 的 时 间 。 

批 处 理 时 间 应 该 小 于 批 数据 的 时 间 片 ， 这 样 才 不 会 出 现 大 的 调度 延迟 ， 可 以 避免 导致 越 
来 越 多 的 批 数据 等 待 处 理 。 

下 面 是 Streaming 监控 界面 的 截图 ， 如 图 4.50 所 示 。 


Spak i3 Jobs Stages Storage Environment Executors Streaming 


Streaming 


Started at: Wed Apr 15 14:29:00 GST 2015 
Time since start: 8 minutes 49 seconds 
Network receivers: 1 

Batch interval: 10 seconds 

Processed batches: 52 

Waiting batches: 0 

Received records: 19 

Processed records: 19 


图 4. 50 Spark Streaming 应 用 Streaming 监控 界面 
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对 应 的 Spark Streaming 应 用 的 批 处 理 统计 信息 ， 如 图 4.50 所 示 。 


Batch Processing Statistics 


Metric Last batch 
Processing Time 65 ms 
scheduling Delay O ms 

Toial Delay 65 ms 


4.51 Spark Streaming 应 用 的 批 处 理 统计 信息 


ETE 内 存 调 优 


内 存 调 优 方面 的 细节 可 以 参考 官方 网 站 上 的 调 优 指南 部 分 。 这 里 主要 讨论 Spark Stream- 
ing 应 用 相关 的 一 些 调 优 参数 。 

一 个 Spark Streaming 应 用 对 集群 内 存 大 小 的 需求 ， 在 很 大 程度 上 依赖 于 所 使 用 的 转换 操 
作 类 型 。 比 如 ， 如 果 使 用 一 个 窗口 长 度 至 少 为 10 分 钟 的 窗口 操作 ， 那 么 集群 内 存 必须 足够 
装载 这 10 分 钟 的 数据 。 或 者 ， 如 果 对 大 量 Keys 进行 updateStateByKey 操作 的 话 ， 对 内 存 的 
要 求 也 会 极 高 。 相 反 的 ， 如 果 只 是 简单 地 做 一 种 map -filter - store 操作 的 话 ， 对 内 存 的 需求 
是 比较 小 的 。 

通常 我 们 使 用 StorageLevel. MEMORY_AND_DISK_SER_2 存储 等 级 来 对 接收 到 的 数据 进 
行 持久 化 ， 因 此 ， 当 内 存 不 足以 装载 数据 时 ， 会 将 数据 汶 出 到 磁盘 中 。 这 会 降低 流 应 用 的 性 
能 ， 因 此 在 流 应 用 中 ， 应 提供 足够 的 内 存 。 

内 存 调 优 的 男 一 个 方面 是 垃圾 回收 GC。 一 般 流 应 用 对 延迟 的 要 求 很 高 ， 如 果 经 和 常 由 于 
GC 而 导致 大 量 停 顿 ， 这 是 不 可 接受 的 。 

下 面 是 一 些 可 以 对 内 存 使 用 和 GC 开销 进行 调 优 的 参数 : 

1. DStreams 的 持久 化 级 别 : 输入 数据 和 RDD 默认 情况 下 是 以 序列 化 的 字 节 进行 持久 化 
的 。 这 可 以 同时 减少 内 存 使 用 和 GC 开销 。 可 以 参考 前 面 的 数据 序列 化 部 分 。 我 们 可 以 使 用 
Kryo 序列 化 来 进一步 减少 序列 化 后 的 数据 大 小 和 内 存 使 用 。 除 了 使 用 更 好 的 序列 化 器 ， 还 
可 以 加 入 压缩 机 制 ， 可 以 参考 配置 属性 Spark. rdd. compress 的 设置 ， 以 CPU 的 时 间 开 销 来 交 
互 内 存 使 用 和 GC 开销 。 

2， 旧 数据 的 清除 : 默认 情况 下 ， 输 入 的 数据 和 DStream 转换 过 程 中 产生 的 持久 化 的 
RDD ， 都 会 自动 被 清除 。Spark Streaming 会 根据 使 用 的 转换 操作 来 决定 何 时 清除 这 些 数据 。 
比如 窗口 长 度 为 10 分 钟 的 窗口 操作 ，SparkStreaminig 会 保留 最 后 10 分 钟 左右 的 数据 ， 并 积 
极 竺 弃 旧 的 数据 。 可 以 通过 配置 参数 streamingContext. remember 为 数据 设置 更 长 的 保留 
时 间 。 

3. CMS 垃圾 收集 器 : 这 里 强烈 建议 使 用 并 行 的 mark - and - sweep GC， 以 便 持 续 地 将 
GC 相关 的 停顿 保持 中 较 低 的 状态 。 强 烈 建议 在 Driver 和 Executor 侧 都 设置 CMS GC， 可 以 分 
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别 在 spark — submit 中 使 用 - — driver - java - options 设置 Driver， 在 属性 配置 中 使 用 
spark. executor. extraJavaOptions 属性 来 设置 Executors。 
4. 其 他 建议 : 为 了 进一步 减少 GC 开销 ， 可 以 尝试 以 下 的 方法 : 
1) 持久 化 RDD 时 选择 off - heap 存储 级 别 来 使 用 Tachyon。 d 
2) 使 用 更 多 个 数 的 ， 分配 的 heap sizes 更 小 的 executors。 这 可 以 在 各 个 JVM heap PI 
> GC 压力 。 
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5.1 Tachyon 概述 

5.2. 重新 编译 部 署 包 

5.3 Tachyon 部 署 的 生 例 与 解析 

5.4  Tachyon 配置 的 案例 与 解析 

5.5 命令 行 接口 的 案例 与 解析 

5.6 同步 底层 文件 系统 的 案例 与 解析 
5.7 Æ T Tachyon iE 45 4 R 4/0 5 UE 


第 5 章 Tachyon SCS 6S AEH 


Si!) Tachyon 概述 


Tachyon 是 AMPLab 的 李 浩 源 所 开发 的 一 个 基于 内 存 的 分 布 式 文件 系统 ， 是 AMPLab 的 
BDAS 的 一 个 组 成 部 分 ， 在 协议 栈 中 的 位 置 ， 如 图 5. 1 所 示 。 


BlinkDB SparkR 
Spark 


Apache Spark 


HDFS,S3,LocalFS,ClusterFS,NFS,Ceph.... 


图 5.1 伯克利 数据 分 析 协 议 栈 


Spark 内 存 计 算 框架 ， 只 是 提供 了 强大 的 内 存 计算 能 力 ， 并 未 提供 存储 能 力 。 通 过 Tach- 
yon 内 存 分 布 式 文件 系统 ， 可 以 为 Spark 等 计算 框架 提供 内 存 存储 能 力 。 不 仅 如 此 ，Tachyon 
内 存 分 布 式 文件 系统 可 以 为 集群 中 部 署 的 计算 框架 提供 内 存 级 别 的 数据 共享 ， 即 不 同 框架 中 
的 应 用 都 可 以 基于 Tachyon 来 共享 数据 。 

Spark 计算 框架 内 路 进程 的 数据 共享 : 存储 引 警 和 计算 引擎 在 同一 个 进程 (JVM) A, 
不 同 的 Jobs 之 间 共 享 数 据 是 通过 磁盘 (disk) 读 写 来 实现 的 ， 如 图 5.2 所 示 。 


Spark Task Spark Task 
存储 引 获 和 
计算 引 获 在 
同一 个 进程 [ Block 1 | 让 Block3 | gpa mem 
Block 3 | block manager block manager 


通过 disk 读 Block 1 Block 2 
写 共享 数 
据 Block 3 Block 4 


图 5.2 Spark 计算 框架 内 跨 进程 的 数据 共享 


HDFS disk 


Spark 计算 框架 与 Hadoop 计算 框架 间 的 数据 共享 也 需要 通过 磁盘 读 写 来 实现 ， 如 图 5.3 
所 示 。 

基于 Tachyon， 可 以 实现 多 个 计算 框架 间 的 数据 共享 ， 如 图 5.4 所 示 。 

同时 ， 单 独 抽 离 出 一 个 内 存 分 布 式 文件 系统 ， 还 可 以 避免 由 于 计算 框架 执行 失败 而 导致 数据 
丢失 等 问题 ， 比 如 Spark 内 部 进程 衣 演 (crash) 而 导致 的 内 存 数据 丢失 问题 ， 如 图 5. 5 所 示 。 
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Spark Task Hadoop MR 


Block 1 Spark 
park mem YARN 


Block 3 block manager 


通过 disk 读 Block 1 Block 2 uox 
写 共享 数据 x 
Block 3 Block 4 


YARN 


通过 disk 读 Block 1 Tachyon 
Bikey B 
写 共享 数据 Block 3 | | Block 4 In-memory 


| 5.4 Spark 5j Hadoop [HJ AY Tachyon 数据 共享 


HDFS disk 


Spark memory Spark memory 
block manager block manager 


HDFS disk HDFS disk 
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图 5.5 进程 crash 而 导致 的 内 存 数据 丢失 
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使 用 Tachyon 不 仅 可 以 避免 多 个 框架 多 个 内 存 缓存 ， 还 避免 了 因 进 程 骨 溃 (crash) 而 导 
致 的 数据 丢失 问题 ， 同 时 还 引入 了 堆 外 内 存 (off - heap memory ) 技术 来 降低 GC 的 开销 。 


[ Section | G 
重新 编译 部 署 包 


在 对 案例 进行 分 析 之 前 ， 为 了 保证 各 个 版 本 间 的 兼容 性 ， 需 要 重新 编译 Tachyon 和 
Spark 版 本 。 


5.2.1 重新 编译 Tachyon 的 部 署 包 


由 于 环境 中 使 用 了 较 新 的 Hadoop 2. 6. 0 版 本 ， 因 此 需要 对 Tachyon 进行 重 编译 。 首 先 下 
载 Tachyon 0. 6. 3 版 本 的 源 代码 ; 


$ wget https: //codeload. github. com/amplab/tachyon/tar. gz/v0. 6. 3 
$ tar xvfz v0. 6.3 
$ cd tachyon — 0. 6.3 


当前 基于 Hadoop 2. 6. 0 的 版 本 重新 编译 Tachyon 0.6. 3 版 本 ， 构 建部 署 包 : 


[ root? cluster01 tachyon - 0. 6. 3 ]#mvn package - DskipTests - Dhadoop. version =2. 6. 0 


当 出 现 以 下 输出 信息 时 ， 部 署 包 构 建成 功 。 


NFO] Reactor Summary : 


NFO] Tachyon ProjectParent . 000 c eee eee SUCCESS [ 6. 465s | 
NFO] Tachyon ProjectCore . 0 cece eee eee ees SUCCESS [ 49. 772s | 
[ INFO] Tachyon ProjectClient . 0c eee eee SUCCESS [ 8. 358s ] 
NFO] Tachyon ProjectAssemblies .... llle lessen SUCCESS [ 0. 975s | 


[ INFO] BUILD SUCCESS 


NFO | Total time:1:;05. 867s 
NFO] Finished at:Fri Apr 17 10:37:04 PDT 2015 


[ INFO] Final Memory :37M/448M 


SU 重新 编译 Spark 的 部 署 包 


Spark 官网 提供 的 Tachyon 版 本 不 是 最 新 的 Tachyon 0. 6. 3 版 本 ， 因 此 ， 根 据 当 前 环境 ， 
基于 Tachyon 0. 6. 3 版 本 和 Hadoop 2. 6. 0 版 本 重新 编译 部 署 包 。 
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1. Tachyon 版 本 的 修改 需要 修改 pom. xml 和 代码 。 
1) 修改 core/ pom. xml 中 Tachyon 的 版 本 为 0. 6. 3。 


< groupld > org. tachyonproject < /groupld > 
< artifactId > tachyon — client < /artifactld > 


<version >0.6.3 </version > 


2) 同时 修改 代码 ， 修 改 类 的 路 径 如 下 : 


sparkl. 3. 0/core/src/main/scala/org/apache/spark/storage/TachyonBlockManager. scala 


3) 修改 前 的 编译 错误 如 下 : 


[ ERROR ] /harli/sparkk — 1.3. 0/core/src/main/scala/org/apache/ spark/storage/ 
TachyonBlockManager. scala:67:type mismatch; 

found  :String 

required ; tachyon. TachyonURI 

[ ERROR ] client. exist( file. getPath( ) ) 

[ ERROR] ^ 

[ERROR] /harli/spark — 1. 3. 0/core/src/main/scala/org/ apache/spark/storage/ Tachyon- 
BlockManager. scala;85:type mismatch; 

found  :String 

required ; tachyon. TachyonURI 

[ ERROR ] client. mkdir( path) 

[ ERROR] 2 

[ ERROR] /harli/spark — 1. 3. 0/core/src/main/scala/org/ apache/spark/storage/ Tachyon- 
BlockManager. scala:93 :type mismatch; 

found  :String 

required ; tachyon. TachyonURI 

[ ERROR ] if( | client. exist(filePath) ) | 

[ ERROR] 7 

[ERROR ] /harli/spark - 1. 3. 0/core/src/main/scala/org/ apache/spark/storage/ Tachyon- 
BlockManager. scala;117:type mismatch; 

found :String 

required ; tachyon. TachyonURI 

[ ERROR ] if (! client. exist( path) ) | 

[ ERROR] 3 

[ERROR] /harli/spark - 1. 3. 0/core/src/main/scala/org/ apache/spark/storage/ Tachyon- 
BlockManager. scala;118:type mismatch; 

found :String 

required ; tachyon. TachyonURI 

[ ERROR ] foundLocalDir = client. mkdir( path ) 

[ ERROR] 


由 于 Tachyon 0. 6. 3 版 本 对 外 提供 的 文件 系统 访问 接口 的 变更 ， 导 致 Spark 1. 3 的 访问 代 


码 编译 失败 。 根 据 接口 的 变更 ,将 其 中 所 有 String 类 型 的 path 等 信息 修改 为 new TachyonURI 
(path) 等， 同时 在 文件 头 部 添加 导入 语句 : import tachyon. TachyonURI。 


使 用 diff 工具 查看 修改 前 后 的 文件 差异 ,修改 后 的 差异 如 下 (Spark - 1. 3. 0. new 是 修改 
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后 的 ) : 


[ root@ cluster01 harli]# diff . /spark — 1. 3. 0/core/src/main/ scala/org/ apache/spark/storage/Tachyon- 
BlockManager. scala — ./spark — 1. 3. 0. new/core/src/main/scala/org/ apache/spark/storage/Tachyon- 


BlockManager. scala 


24225 

> import tachyon. TachyonURI ; 
67c68 

< client. exist( file. getPath( ) ) 

> client. exist( newTachyonURI( file. getPath( ) ) ) 
85c86 

< client. mkdir(path ) 

> client. mkdir( newTachyonURI( path) ) 
93c94 

< if( | client. exist(filePath) ) | 


» if( | client. exist( newTachyonURI(filePath) ) ) | 
117,118c118,119 

< if (! client. exist( path) ) | 

< foundLocalDir = client. mkdir( path) 

> if (! client. exist( newTachyonURI( path) ) ) | 
> foundLocalDir = client. mkdir( new TachyonURI( path) ) 


2. 修改 后 ， 使 用 部 署 脚本 make - distribution. sh 重新 编译 、 部 署 ， 命 令 如 下 : 


[ root@ cluster01 spark — 1. 3.0]#. /make — distribution. sh skip — java - test tgz mvnmvn — 
Pyarn  - Phadoop - 2.4 - Dhadoop. version = 2. 6.0 — Phive - Dhive. version = 0. 13. 1. — Phive 


— thriftserver 

3. 出 现 以 下 信息 时 ， 表 示 编 译 成 功 。 
[ INFO] 
[ INFO] Reactor Summary; 
[ INFO ] 
[INFO] Spark Project ParentPOM .i SUCCESS [4. 532s ] 
[INFO] Spark ProjectNetworking .ii SUCCESS [9. 115s] 
[INFO] Spark Project Shuffle StreamingService ........... SUCCESS [4. 977s ] 
[INFO] Spark ProjectCore .i SUCCESS [3:18. 231s ] 
[ INFO] Spark ProjectBagel . 0000 eee eee SUCCESS [ 18. 997s | 
[INFO] Spark ProjectGraphX .pp SUCCESS [ 52. 297s | 
[INFO] Spark ProjectStreaming .i SUCCESS [1:15. 737s ] 
[INFO] Spark ProjectCatalyst .i SUCCESS [1:21. 429s ] 
[INFO] Spark ProjectSQL .i SUCCESS [1 :39. 423s ] 
[INFO] Spark Project MLLibrary ........ seen SUCCESS [ 1:50. 423s ] 
[INFO] Spark ProjectTools . 0... e cece eee eee eee SUCCESS [ 11. 017s] 
[ INFO] Spark ProjectHive . 0 cece eee eee eee SUCCESS [1:16. 486s | 
[INFO] Spark ProjectREPL ........... 0.00 cece cece eee eens SUCCESS [ 33. 244s ] 
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[INFO] Spark ProjectYARN .i SUCCESS [ 39. 287s ] 
[INFO] Spark Project Hive ThriftServer .................. SUCCESS [ 24. 989s | 
[INFO] Spark ProjectAssembly . 02000 eee ee eeee SUCCESS [ 1:49. 777s ] 
[INFO] Spark Project ExternalTwitter . .i SUCCESS [ 15. 131s ] 
[INFO] Spark Project External FlumeSink ................. SUCCESS [ 17. 302s ] 
[INFO] Spark Project ExternalFlume.................--055 SUCCESS [ 23. 973s ] 
[INFO] Spark Project ExternalMQTT .i SUCCESS [ 15. 707s ] 
[INFO] Spark Project ExternalZeroMQ .i SUCCESS [ 16. 107s | 

[ INFO] Spark Project ExternalKafka .9 SUCCESS [ 33. 137s] 
[INFO] Spark ProjectExamples ......... llle eee SUCCESS [ 2:06. 255s | 
[ INFO] Spark Project YARN ShuffleService . SUCCESS [ 19. 570s ] 
[INFO] Spark Project External KafkaAssembly ............. SUCCESS [ 34. 164s ] 

[ INFO ] 

[ INFO] BUILD SUCCESS 

[ INFO] 

[ INFO] Total time :20: 52. 068s 

[ INFO] Finished at:Sun Apr 19 07:53:17 PDT 2015 

[ INFO] Final Memory :93M/1170M 

[ INFO ] 


由 于 Maven 仓库 (http: //maven. oschina. net) 中 缺少 一 些 依赖 包 ， 需 要 自己 手动 下 载 ， 


或 修改 相关 的 版 本 依赖 信息 ， 或 用 其 他 仓库 。 比 如 org. eclipse. paho. client. mqttv3 的 1. 0. 1 
版 本 和 Hive 1. 1. 0 版 本 的 依赖 包 在 仓库 中 不 存在 ， 如 图 5. 6 所 示 。 


Cdl € > Ee LP, Yr È http;//maven.oschina.net/content/groups/public/org/eclipse/paho/org.eclipse.paho.client.mqttv3/ 
[站 最 党 访问 | [图 百度 M hao123 Toos [hardi Jouster 门 博客 门 网 站 FAE 门 ]github 门 编 得 语言 门 版 本 管理 Be 


索引 /content/groups/public/org/eclipse/paho/org.eclipse.paho.client.mqttv3/ 


文件 最 后 修改 大 小 
Parent Directory 
1.0.0/ 2015-03-29 05:39:19 


图 5.6 mdqttv3 AY 1. 0. 1 版 本 缺失 


仓库 中 的 Hive 依赖 版 本 信息 ， 如 图 5.7 所 示 。 


= 
L4 < > O ' yx @http://maven.oschina.net/content/groups/public/org/spark-project/hive/hive-metastore/ 
Hasr ”| 出 百度 M hao123 | "Tools 门 hani (cluster 门 ] 博 客 门 网 站 门 大 数据 [github (RBS EAN 


索引 /content/groups/public/org/spark-project/hive/hive-metastore/ 


文件 后 修改 

Parent Directory 

0.12.0/ 2014-06-29 10:48:04 
0.12.0-protobuf-2.5/ 2014-12-04 16:10:04 
0.13.1/ 2014-10-22 07:11:52 
0.13.1a/ 2014-12-12 01:34:03 


图 5.7 Hive ff] 1. 1. 0 版 本 缺失 
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这 里 手动 下 载 了 org. eclipse. paho. client. mqttv3 AY 1.0. 1 版 本 ， 直 接 使 用 Hive AY 0. 13. 1 版 本 。 
手动 下 载 后 放置 的 目录 根据 jar 包 的 坐标 放置 ， 如 org. eclipse. paho. client. mqttv3 的 jar 包 在 本 机 中 
放置 的 路 径 为 : . m2/repository/org/eclipse/paho/ org. eclipse. paho. client. mqttv3/1. 0. 1, 


Tachyon 部 署 的 案例 与 解析 


一 般 情况 下 ， 分 布 式 系 统 都 会 至 少 提供 两 种 部 署 模式 ， 一 种 是 单机 模式 ， 通 常用 于 测 
试 、 快 速 部 署 人 门 等 ， 另 一 种 是 分 布 式 模 式 ， 用 于 实际 工作 环境 。 比 如 Hadoop 分 布 式 系统 ， 
单机 模式 和 伪 分 布 式 模式 都 是 为 了 用 于 测试 和 快速 部 署 入 门 ， 其 中 伪 分 布 式 以 进程 来 模拟 集 
群 节点。 类 似 的 ，Spark 也 是 可 以 在 单机 上 手动 启动 Worker 守护 进程 ， 来 模拟 伪 分 布 式 的 
Spark 集群 。 

Tachyon 也 同时 提供 了 这 两 种 部 署 模式 ， 这 里 会 分 别 给 出 详细 的 部 署 案例 并 进行 解析 。 
集群 中 部 署 的 各 软件 版 本 如 下 : 

1) Tachyon 0. 6.3, 

2) Hadoop 2. 6. 0, 

3) Spark 1. 3. 0, 

为 了 保证 各 软件 版 本 间 的 兼容 性 ， 针 对 这 些 版 本 进行 了 重 编译 ， 其 中 Tachyon 和 Spark 
的 重新 编译 参看 5. 2. 2 小 节 的 内 容 。 


Sc 单机 模式 部 署 的 案例 与 解析 


一 、 单 机 环境 

1. 当前 用 户 名 harli; 如 果 是 root 用 户 ， 中 间 可 以 省 去 sudo 权限 验证 。 

2. 当前 单机 的 hostname 为 cluster04。 

二 、 准备 工作 

启动 单机 模式 下 的 Tachyon 之 前 ， 需 要 先 对 环境 变量 进行 配置 ， 步 又 如 下 : 


[ harli@ cluster04 tachyon | $ mv tachyon — 0. 6. 3/ tachyon 

[ harli@ cluster04 cluster] $ cd tachyon 

[ harli@ cluster04 tachyon | $ cp conf/tachyon - env. sh. template conf/tachyon — env. sh 

[ harli@ cluster04 tachyon | $ . /bin/tachyon format 

Connection to localhost asharli... Warning: Permanently added localhost ( RSA) to the list of known 
hosts. 

which :no java in (/usv/local/bin ;/bin ;/usr/bin) 

dirname ; missing operand 

Try dirname -- help for more information. 

Formatting Tachyon Worker @ cluster04 

/home/harli/cluster/tachyon/bin/tachyon ; line 243 :/. . /bin/java: No such file or directory 
Connection to localhost closed. 

Formatting Tachyon Master @ localhost 

[ harli@ cluster04 tachyon | $ 
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找 不 到 Java 命令 ， 因 此 添加 JAVA_HOME 设置 。 


[ harli@ cluster04 tachyon] $ echo $ JAVA, HOME 
/lib/jdkl. 7.0 71 
[ harli@ cluster04 tachyon | $ vim conf/tachyon — env. sh 


添加 后 的 内 容 如 下 : 


JAVA. HOME = "/lib/jdkl. 7.0 71" 
if[ -z" $ JAVA, HOME" ]; then 

export JAVA. HOME =" $ (dirname $ (which java) )7. . " 
fi 


其 中 斜体 部 分 是 添加 的 环境 变量 。 


[ harli@ cluster04 tachyon | $ . /bin/tachyon format 
Connection to localhost asharli... Formatting Tachyon Worker @ cluster04 
Connection to localhost closed. 


Formatting Tachyon Master @ localhost 


local 模式 下 启动 Tachyon: 


[ harli@ cluster04 tachyon | $ . /bin/tachyon - start. sh local 
Killed 0 processes 
Killed 0 processes 
Connection to localhost asharli... Killed 0 processes 
Connection to localhost closed. 
We trust you have received the usual lecture from the local System 
Administrator. It usually boils down to these three things: 

#1) Respect the privacy of others. 

#2) Think before you type. 

33) With great powercomes great responsibility. 
[ sudo] password forharli; 
harli is not in the sudoers file. This incident will be reported. 


Mount failed , not starting 
首先 需要 对 Tachyon 的 文件 系统 进行 格式 ， 需 要 注意 的 是 ， 由 于 Tachyon 需要 安装 
ramfs， 启 动 local 模式 时 ， 用 户 需 要 有 权限 进行 操作 。 通 常 可 以 使 用 root 用 户 ， 或 能 为 其 他 
用 户 添加 sudo 权限 。 
root cluster04 ~ ]# su — root 
root@ cluster04 ~ ]#chmod u + w /etc/sudoers 


root? cluster04 ~ ]# vim /etc/sudoers 
root@ cluster04 ~ |#chmod u - w /etc/sudoers 


修改 文件 /etc/sudoers 时 ， 添 加 harli HÈ (当前 启动 Tachyon AAA) : 


## Allow root to run any commands anywhere 
rot ALL = (ALL) ALL 

harli ALL = (ALL) ALL 

#harli ALL = (root) NOPASSWD : ALL 


限 。 
化 。 
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在 root 用 户 下 ， 添 加 相同 权限 的 harli 用 户 
小 技巧 : 如 果 不 想 在 sudo 过 程 中 进行 权限 验证 的 话 ， 可 以 给 用 户 设置 无 密码 sudo 权 
另外 chmod 修改 权限 部 分 也 可 以 通过 vim 修改 文件 内 容 时 ,使 w! 命令 强制 写 人 来 简 
无 密 设 置 后 可 以 通过 下 面 命令 来 测试 : 

// 无 密 设 置 后 不 需要 再 进行 权限 验证 

[ hari@ cluste104 ~ ] $ sudo ls /root/ 


anaconda —ks. cfg install. log install. log. syslog — test 


[ harli@ cluster04 ~ | $ ls /root/ 


ls:cannot open directory /root/ :Permission denied 


三 、 启 动 Tachyon 
local 模式 启动 Tachyon : 


[ harli@ cluster04 tachyon] $ ./bin/tachyon - start. sh local 
Killed 0 processes 

Killed 0 processes 

Connection to localhost asharli... Killed 0 processes 
Connection to localhost closed. 

[ sudo] password forharli: 

Sorry , try again. 

[ sudo] password forharli: 

ERROR: Memory (1028517888) is less than requested ramdisk size( 1073741824). 
Please reduce Tachyon WORKER, MEMORY SIZE 

Mount failed , not starting 


由 于 当前 内 存 值 设置 太 小 ， 导 致 ramdisk 大 小 不 足 报错 。 
查看 环境 配置 文件 中 的 相关 属性 : 


[ harli@ cluster04 tachyon | $ vim conf/tachyon ~ env. sh 
找到 Tachyon_WORKER_MEMORY_SIZE 配置 ， 默 认 值 为 1 GB (block 大 小 ) : 
export Tachyon WORKER, MEMORY SIZE =1 GB 


修改 当前 虚拟 机 的 内 存 ， 内 存 空间 由 原来 的 1 GB 改 为 3GB ， 具 体 修 改 如 图 5. 8 所 示 。 
重新 启动 单机 模式 下 的 Tachyon : 


[ harli@ cluster04 tachyon | $ . /bin/tachyon - start. sh local 
Killed 0 processes 

Killed 0 processes 

Connection to localhost asharli... Killed 0 processes 
Connection to localhost closed. 

[ sudo] password forharli: 

FormattingRamFS ;/mnt/ramdisk (1gb) 

Starting master @ localhost 

Starting worker @ cluster04 


e 


大 数据 实例 开发 教程 


图 5.8 虚拟 机 内 存 设置 的 修改 


局 动 成 功 ， 查 看 当前 进程 : 


[ harli@ cluster04 tachyon | $ jps 


4386TachyonMaster 
4405TachyonW orker 
4451 Jps 


查看 mount 信息 : 


[ harli@ cluster04 tachyon] $ mount | grep ramdisk 


ramfs on /mnt/ramdisk type ramfs (rw, size = 1gb) 


可 以 看 到 当前 新 增 了 一 个 映射 ramdisk， 大 小 为 默认 值 1CB。 


四 、 验 证 


虚拟 机 设置 EI 
硬件 ”选项 | 

设备 摘要 内 存 
mp 1GB 指定 分 配给 此 虚拟 机 的 内 存量 。 内 存 大 小 必须 为 4 MB 
同 处 理 器 1 的 信 数 。 
(SCSI) 80 GB 一 一 一 
全 CD/DVD (IDE) 自动 检测 此 虚拟 机 的 内 存 (M): 30727. MB 
LIES E NAT 
USB 控制 器 存在 
ORE 自动 检测 
HT EDM, 存在 2GB 
Sins 自动 检测 1GB 4 日 最 大 建议 内 存 

512 MB < 起 出 此 大 小 可 能 


查看 Web Interface 界面 (http: cluster04: 19999), ， 如 图 5. 9 所 示 。 


Tachyon EA 


@ |2 clustero4 


mu 


Tachyon Summary 


Cluster Usage Summary 


Master Address: localhosti127.0.0.1:19998 Memory Capacity: 1024.00 MB 
Started: 04-17-2015 09:20:40:772 Memory Free / Used: 1024.00 MB / 0.00 B 
Uptime: 0 day(s), 0 hour(s}, 4 minute(s), and 21 second(s) UnderFS Capacity: 76.55 GB 

: Version: 0.6.3 UnderFS Free / Used: 69.60 GB / 6.94 GB 


Running Workers: — 1 


Ea 


on is an Open source project developed al the UC Berkeley AMPLab 


5.9 Tachyon 的 概览 页 面 


Web Interface 界面 包含 以 下 几 部 分 内 容 : 
1) Overview; Tachyon 集群 的 整体 描述 信息 ， 包 含 当 前 运行 的 TachyonURL 信息 ， 运 行 
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中 的 Workers 个 数 ， 以 及 当前 集群 使 用 情况 。 


2) Workers: 当前 可 用 Workers 及 其 相关 信息 ， 以 及 当前 丢失 的 Workers 信息 。 

3) System Configuration: 当前 Tachyon 集群 的 系统 配置 信息 。 

4) BrowseFileSystem: Tachyon 文件 系统 的 浏览 界面 。 © 
5) In Memory Files; 当前 在 内 存 中 的 文件 信息 。 

到 这 一 步 单机 模式 已 经 部 署 成 功 。 如 果 启 动 失 败 ， 可 以 查看 启动 日 志 , Hi HRE logs 

当前 日 志 包 含 : 


[ harli@ cluster04 tachyon] $ Is logs/ 

master. log@ 192. 168. 242. 135 04 - 17 -2015 user. log@ 192. 168. 242. 135 04 - 17 -2015 
user. log@ 192. 168. 242. 135 04 - 17 —2015_2 worker. out 

master. out user. log? 192. 168. 242. 135 04 - 17 - 2015. 1 
worker. log@ 192. 168. 242. 135 04 - 17 - 2015 


运行 一 个 简单 的 测试 


[ harli@ cluster04 tachyon] $ ./bin/tachyonrunTest Basic CACHE THROUGH 

/ default. tests. files/BasicFile CACHE THROUGH has been removed 

2015 -04 -17 09:30:59,415 WARN . (CommonConf. java; «init» ) — tachyon. home is not 
set. Using /mnt/tachyon, default home as the default value. 

2015 -04 -17 09:30:59,430 INFO  (MasterClient. java: connect) — Tachyon client 
(version 0. 6. 3) is trying to connect master @ localhost/127. 0. 0. 1.19998 

2015 -04 -17 09:30:59,468 INFO (MasterClient. java: connect) — User registered 

at the master localhost/127. 0. 0. 1:19998 got Userld 3 

2015 -04 -17 09:30:59,596 INFO — ( CommonUtils. java: printTimeTakenMs) — 

createFile withfileld 3 took 177 ms. 

2015 -04 -17 09:30:59,644 INFO — (WorkerClient. java:connect) — Trying to get 

local worker host : cluster04 
2015 -04 -17 09:30:59,672 INFO — (WorkerClient. java:connect) — Connecting local 
worker @ cluster04/192. 168. 242. 135 :29998 

2015 -04 -17 09:30:59,792 INFO  (TachyonFS. java:getLocalBlockTemporaryPath) — 
Folder /mnt/ramdisk/tachyonworker/users/3 was created! 

2015 -04 -17 09:30:59,795 INFO . (BlockOutStream. java; «init» ) — 
/mnt/ramdisk/tachyonworker/users/3/3221225472 was created! 

2015 -04 -17 09:30:59,872 INFO ( CommonUtils. java: printTimeTakenMs) — writeFile 
to file /default tests files/BasicFile CACHE THROUGH took 276 ms. 

2015 -04 -17 09:31:00,012 INFO ( CommonUtils. java; printTimeTakenMs) - readFile 
file /default tests files/BasicFile CACHE THROUGH took 139 ms. 

Passed the test! 


出 现 以 上 信息 表示 验证 通过 。 

继续 查看 Web Interface 界面 。 

1. Overview 页 面 : 当前 使 用 的 内 存 已 经 发 生变 化 
当前 使 用 内 存 的 变化 如 图 5. 10 所 示 。 


Tachyon 
€ clustero4 


Overview 


大 数据 实例 开发 教程 


Configuration 


Tachyon Summary 


Cluster Usage Summary 


Master Address: localhost/127.0.0.1:19998 Memory Capacity: 1024.00 MB 

Started: 04-17-2015 09:20:40:772 Memory Free / Used: 
Uptime: 0 day(s), 0 hour(s), 12 minute(s), and 2 second(s) UnderFS Capacity: 76.55 GB 

Version: 0.6.3 UnderFS Free / Used: 69.60 GB / 6.94 GB 


Running Workers: 1 


器 


2. Workers 


5.10  Tachyon 的 概览 页 面 上 的 内 存 变 化 


Workers 页 面 上 的 相应 变化 如 图 5. 11 所 示 。 


de clustero4 


Workers 


Live Workers 


Node Name Last Heartbeat State Memory Capacity Used Memory Memory Usage 
cluster04 0 In Service 1024.00 MB 80.00 B | — — 100%Free ë ] 
Lost Workers 
Node Name Last Heartbeat Memory Capacity 
proj ped at the UC Berkeley AMPLat 


Kl 5.11 


3. Browse File System 


Tachyon 的 Workers 页 面 上 的 变化 


Tachyon 的 文件 系统 页 面 上 的 相应 变化 如 图 5. 12 Brrz 


Overview Workers 


System Configuration 


Browse File System In Memory Files 


File Name Size 


w Settings 


D 


4. In Memory Files 


Block Size 


In-Memory Pin Creation Time 


NO 04-17-2015 09:30:59:478 


Modification Time 


04-17-2015 09:30:59:478 


iS ar project developed at the UC Berkeley AM 


5.12 Tachyon 的 文件 系统 页 面 上 的 变化 


缓存 在 内 存 中 的 文件 的 界面 如 网 5. 13 所 示 。 


E Tachyon 实践 案例 与 解析 


In Memory Files 


File Path Size Block Size Pin Creation Time Modification Time 


default tests files/BasicFile CACHE THROUGH 80.008 512.00 MB NO 04-17-2015 09:30:59:478 04-17-2015 09:30:59:867 


View Settings 


ped at the UC Berkeley 


Kd 5.13 Tachyon 的 缓存 在 内 存 中 文件 的 界面 


继续 单 击 文件 名 ， 对 应 的 文件 具体 内 容 如 图 S. 14 所 示 。 


Tachyon 
€ clustero4 


Workers System Configuration Browse File System In Memory Files 


PPPOE ADE 4) 49 49 4P 4) 4 49 49 49 49 49 4) 4P 4 4» 49 4» 4» €» Tore? 


v €OUOOOOXOYYOOY€OOOOXOYOOYOYO 


Opening BasicFile CACHE THROUGH 


You have chosen to open 


BasicFile CACHE THROUGH 


which is a: BIN file (80 bytes) 
from: http://cluster04;19999 


Would you like to save this file? 


Cancel Save File 


图 5$. 14 查看 Tachyon 文件 


图 5.14 中 显示 乱码 ， 应 该 和 本 机 编码 默认 为 UTF -8 有 关 ， 当 前 编码 为 : 


[ harli@ cluster04 tachyon] $ locale 
LANG = en US. UTF - 8 

LC CTYPE = "en_US. UTF - 8" 

LC NUMERIC = "en US. UTF - 8" 
LC TIME =" en_US. UTF - 8" 

LC COLLATE =" en_US. UTF - 8" 
LC MONETARY =" en_US. UTF - 8" 
LC MESSAGES =" en_US. UTF - 8" 
LC PAPER = "en US. UTF - 8" 

LC NAME = "en_US. UTF - 8" 
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LC ADDRESS = "en_US. UTF - 8" 

LC TELEPHONE = "en US. UTF - 8" 

LC. MEASUREMENT = "en_US. UTF - 8" 
LC IDENTIFICATION = "en US. UTF - 8" 
LC ALL = 


可 以 继续 运行 全 部 的 测试 : 


[ harli@ cluster04 tachyon | $ . /bin/tachyonrunTests 

/home/harli/cluster/tachyon/bin/tachyon runTest Basic MUST_CACHE 

/ default tests files/BasicFile MUST. CACHE has been removed 

2015 -04 -17 09:43:35,285 WARN . (CommonConf. java; «init > ) — tachyon. home is not 
set. Using /mnt/tachyon, default home as the default value. 

2015 -04 -17 09:43:35,300 INFO  (MasterClient. java: connect) - Tachyon client 

( version 0. 6. 3) is trying to connect master (? localhost/127. 0. 0. 1: 19998 

2015 -04 -17 09:4:35,337 INFO . (MasterClient. java: connect) — User registered 

at the master localhost/127. 0. 0. 1:19998 got Userld 7 

2015 -04 -17 09:43:35,352 INFO ( CommonUtils. java: printTimeTakenMs) — 

createFile withfileld 4 took 62 ms. 
2015 -04 -17 09:43:35,386 INFO — (WorkerClient. java:connect) — Trying to get 
local worker host : cluster04 
2015 -04 -17 09:43:35,394 INFO  (WorkerClient. java: connect) — Connecting local 
worker @ cluster04/192. 168. 242. 135: 29998 

2015 -04 -17 09:43:35,431 INFO — (TachyonFS. java:getLocalBlockTemporaryPath) — 
Folder /mnt/ramdisk/tachyonworker/users/7 was created! 

2015 -04 -17 09:43:35,439 INFO  (BlockOutStream. java; «init» ) — 
/mnt/ramdisk/tachyonworker/users/7/4294967296 was created! 

2015 -04 -17 09:43:35,470 INFO ( CommonUtils. java: printTimeTakenMs) — writeFile 
to file /default, tests files/BasicFile MUST. CACHE took 118 ms. 

2015 -04 -17 09:43:35,531 INFO ( CommonUtils. java: printTimeTakenMs) - readFile 
file /default. tests. files/BasicFile MUST. CACHE took 61 ms. 

Passed the test! 


后 查看 Web Interface 页 面 ， 这 里 查看 In Memory 页 面 ， 如 图 5.15 所 示 。 
是 测试 后 映射 的 ramdisk 中 的 内 容 : 


[ harli@ cluster04 tachyon | $ cd /mnt/ramdisk/tachyonworker/ 

100931731456 105226698752 108447924224 24696061952 33285996544 
52613349376 68719476736 90194313216 97710505984 

102005473280 106300440576 109521666048 25769803776 4294967296 
53687091200 74088185856 95563022336 99857989632 

103079215104 10737418240 110595407872 31138512896 46170898432 
54760833024 75161927680 9663676416 users/ 
104152956928 107374182400 11811160064 32212254720 47244640256 
67645734912 76235669504 96636764160 


单机 模式 下 可 以 作为 入 门 测试 等 场景 使 用 ， 最 终 在 实际 环境 上 应 该 部 署 集群 模式 。 这 里 
先 停止 单机 模式 ， 命 令 如 下 : 


证 Applications Places System @) & 国 


File Edit View History Bookmarks Tools Help 


| 3 Tachyon le] 


€| 


cluster04:19999 


ed OF 


YB) (AY 


Fri Apr 17, 9:44AM CentOS65_01 


7 Tachyon - Mozilla Firefox -ox 


曲 重 


In Memory Files E 


File Path 
/default_tests_files/BasicCheckpoint/part-0 
/default_tests_files/BasicCheckpoint/part-1 
/default_tests_files/BasicCheckpoint/part-2 
/default_tests_files/BasicCheckpoint/part-3 
/default_tests_files/BasicCheckpoinUpart-4 
/default_tests_files/BasicCheckpoint/part-5 

/default tests files/BasicCheckpoint/part-6 
/default_tests_files/BasicCheckpoint/part-7 
/default_tests_files/BasicCheckpoint/part-8 

/default tests files/BasicCheckpoint/part-9 

default tests files/BasicFile ASYNC THROUGH 
default tests files/BasicFile CACHE THROUGH 


idefault tests files/BasicFile MUST CACHE 
[B harli@clustero4:—jclus... || iJ) Tachyon - Mozilla Firefox ) 


Size 

80.00B 
80.00B 
80.00B 
80.00B 
80.00 B 
80.00B 
80.00 B 
80.00 B 
80.00B 
80.00 B 
80.00 B 
80.00 B 


80.00B 


Block Size 
512.00 MB 
512.00 MB 
512.00 MB 
512.00 MB 
512.00 MB 
512.00 MB 
512.00 MB 
512.00 MB 
512.00 MB 
512.00 MB 
512.00 MB 
512.00 MB 


512.00 MB 


[ harli@ cluster04 tachyon] $ . /bin/tachyon - stop. sh 


Killed 1 processes 
Killed 1 processes 


Connection to localhost asharli... Killed 0 processes 


Connection to localhost closed. 


至 此 ， 完 成 单机 模式 部 署 的 实践 。 


集群 模式 部 署 的 案例 与 解析 


这 里 分 析 Standalone 集群 的 搭建 过 程 。 
一 、 集 群 环境 


Pin 
NO 
NO 
NO 
NO 
NO 
NO 
NO 
NO 
NO 
NO 
NO 
NO 
NO 


Creation Time 

04-17-2015 09:43:51:284 
04-17-2015 09:43:51:285 
04-17-2015 09:43:51:285 
04-17-2015 09:43:51:286 
04-17-2015 09:43:51:286 
04-17-2015 09:43:51:286 
04-17-2015 09:43:51:286 
04-17-2015 09:43:51:286 
04-17-2015 09:43:51:286 
04-17-2015 09:43:51:287 
04-17-2015 09:43:49:535 
04-17-2015 09:43:42:274 


04-17-2015 09:43:35:340 


[5.15 Tachyon 全 部 测试 后 的 内 存 文件 信息 


Modification Time 

04-17-2015 09:43:51:375 
04-17-2015 09:43:51:382 
04-17-2015 09:43:51:400 
04-17-2015 09:43:51:405 
04-17-2015 09:43:51:411 
04-17-2015 09:43:51:417 
04-17-2015 09:43:51:423 
04-17-2015 09:43:51:433 
04-17-2015 09:43:51:439 
04-17-2015 09:43:51:447 
04-17-2015 09:43:49:641 
04-17-2015 09:43:42:396 


04-17-2015 09:43:35:463 


1) 当前 用 户 名 harli。 如 果 是 root 用 户 ， 中 间 可 以 省 去 sudo 权限 验证 。 
2) 集群 机 器 。 包 括 cluster04 、cluster05 、cluster06 三 个 节点 。 


3) 当前 集群 的 进程 如 下 。 


方 点 yt OE 

cluster04 TachyonMaster, TachyonWorker, Master, NameNode, DataNode, Worker 
cluster05 TachyonWorker, QuorumPeerMain, DataNode, Worker 

cluster06 TachyonMaster, TachyonWorker, DataNode, Worker 


二 、 准 备 工 作 


1. 修改 conf/workers， 添 加 以 下 三 个 节点 


cluster04 
cluster05 
cluster06 


ayy 
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需要 注意 的 是 Tachyon 0. 5. 0 等 旧版 本 中 配置 文件 名 字 为 slaves。 
2. 修改 conf/tachyon — env. sh 
和 单机 部 署 一 样 ， 需 要 添加 JAVA. HOME 环境 变量 。 


JAVA HOME = "/lib/jdkl. 7. 0. 71" 
if [ -z" $ JAVA HOME" ]; then 

export JAVA. HOME =" $ (dirname $ (which java) )7. . " 
fi 


export JAVA =" $ JAVA. HOME/bin/java" 
export Tachyon MASTER ADDRESS = cluster04 


SRT JAVA HOME 环境 变量 之 前 ， 尤 其 要 注意 的 是 要 修改 Tachyon MASTER, ADDRESS 
为 本 机 地 址 ， 否 则 Workers 连接 Master 时 会 使 用 默认 的 localhost, ， 导 致 连接 失败 。 
3. 修改 完成 后 ， 发 布 到 各 个 Workers 节点 上 ， 这 里 使 用 sep 命令 


[ harli@ cluster04 tachyon] $ scp -r . . /tachyon harli@ cluster05 ;/home/harli/cluster 
[ harli@ cluster04 tachyon] $ scp -r . . /tachyon harli@ cluster05 ;/home/harli/cluster 


4. 格式 化 


[ harli@ cluster04 tachyon] $ . /bin/tachyon format 

Connection to cluster04 asharli... Formatting Tachyon Worker @ cluster04 
Connection to cluster04 closed. 

Connection to cluster05 asharli... Formatting Tachyon Worker @ cluster05 
Connection to cluster05 closed. 

Connection to cluster06 asharli... Formatting Tachyon Worker @ cluster06 
Connection to cluster06 closed. 

Formatting Tachyon Master @ cluster04 


[ harli@ cluster04 tachyon | $ . /bin/tachyon - start. sh all Mount 

Killed 0 processes 

Killed 0 processes 

Connection to cluster04 asharli... Killed 0 processes 

Connection to cluster04 closed. 

Connection to cluster05 asharli... Killed 0 processes 

Connection to cluster05 closed. 

Connection to cluster06 asharli... Killed 0 processes 

Connection to cluster06 closed. 

Starting master @ localhost 

Connection to cluster04 asharli... Formatting RamFS:/mnt/ramdisk ( 1gb) 
umount: only root can do that 

mount; only root can do that 

chmod: changing permissions of /mnt/ramdisk ; Operation not permitted 
Mount failed , not starting worker 

Connection to cluster04 closed. 

Connection to cluster05 asharli... Formatting RamFS ;/mnt/ramdisk (1gb) 


mkdir: cannot create directory /mnt/ramdisk :Permission denied 


在 


当 使 
由 于 这 


启动 时 ， 


使 用 


注意 : 
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mount; only root can do that 

chmod: cannot access /mnt/ramdisk :No such file or directory 

Mount failed, not starting worker 

Connection to cluster05 closed. 

Connection to cluster06 asharli... Formatting RamFS ;/mnt/ramdisk (1gb) S 
mkdir: cannot create directory /mnt/ramdisk :Permission denied 

mount; only root can do that 

chmod: cannot access /mnt/ramdisk :No such file or directory 

Mount failed , not starting worker 


Connection to cluster06 closed. 


用 all Mount 方式 进行 启动 时 ， 必 须 是 root 用 户 才 可 以 直接 进行 ramdisk 的 映射 。 
文 里 使 用 harli 用 户 ， 因 此 ， 除 了 在 各 个 Workers 上 设置 harli HF HY sudo 权限 之 外 ， 
参数 必须 选择 SudoMount ， 对 应 的 ， 如 果 是 root 用 户 ， 参 数 设 为 mount 即 可 。 
正确 的 参数 启动 : 


[ harli@ cluster04 tachyon] $ ./bin/tachyon - start. sh allSudoMount 
Killed 1 processes 


Killed 1 processes 

Connection to cluster04 asharli... Killed 0 processes 
Connection to cluster04 closed. 

Connection to cluster05 asharli... Killed 1 processes 
Connection to cluster05 closed. 

Connection to cluster06 asharli... Killed 1 processes 
Connection to cluster06 closed. 

Starting master @ cluster04 

Connection to cluster04 asharli... [sudo] password for harli; 
FormattingRamFS ;/mnt/ramdisk (1gb) 

Starting worker @ cluster04 

Connection to cluster04 closed. 

Connection to cluster05 asharli... [sudo] password for harli; 
FormattingRamFS ;/mnt/ramdisk (1gb) 

Starting worker @ cluster05 

Connection to cluster05 closed. 

Connection to cluster06 asharli... [sudo] password for harli; 
FormattingRamFS ;/mnt/ramdisk (1gb) 

Starting worker @ cluster06 


Connection to cluster06 closed. 


当 使 用 非 root 用 户 时 ， 在 每 个 主机 上 映射 ramdisk 时 都 要 进行 sudo 权限 验证 ,会 非常 麻烦 。 


6. 查看 进程 


使 用 


jps 命令 查看 各 个 节点 当前 进程 情况 : 


cluster04 TachyonMaster, TachyonWorker 
cluster05 Tachyon Worker 
cluster06 Tachyon Worker 
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查看 Web Interface 界面 ( http://cluster04:19999) , Wil 5. 16 所 示 。 


了 Tachyon 


cluster04 vg [n 


Overview 


Tachyon Summary Cluster Usage Summary 
Master Address: cluster04/192.168.242.135:19998 Memory Capacity: 3072.00 MB 
Started: 04-17-2015 12:04:19:044 Memory Free / Used: 3072.00 MB / 0.00 B 
Uptime: 0 day(s), 0 hour(s), 0 minute(s), and 59 second(s) UnderFS Capacity: 76.55 GB 
] 
Version: 0.6.3 UnderFS Free / Used: 69.17 GB / 7.37 GB 


Running Workers: 3 


yon is an open source project developed at the UC Berkeley AMPL 


5.16 Tachyon 启动 后 的 验证 界面 
可 以 看 到 已 经 可 以 成 功 访问 页 面 ， 并 且 运 行 中 的 Workers 节点 个 数 为 3。 
继续 运行 测试 : 
[ harli@ cluster04 tachyon | $ . /bin/tachyon runTests 


再 次 查看 界面 ， 如 图 5. 17 所 示 。 


Tachyon lè] 


ESI cluster04 v&) Ie 


Overview 


Tachyon Summary Cluster Usage Summary 

Master Address: cluster04/192.168.242.135:19998 Memory Capacity: 3072.00 MB 

Started: 04-17-2015 12:04:19:044 Memory Free / Used: 3072.00 MB / 2736.00 B 
Uptime: 0 day(s), 0 hour(s), 12 minute(s), and 17 second(s) UnderFS Capacity: 76.55 GB 

Version: 0.6.3 UnderFS Free / Used: 69.17 GB / 7.37 GB 


Running Workers: 3 


n is an open s e project developed at the UC Berkeley AMPLab. 


5.17  Tachyon 运行 测试 后 的 界面 


验证 通过 ， 至 此 ， 集 群 模式 部 署 成 功 。 


集群 Master 容错 部 署 的 案例 与 解析 


作为 一 个 M/S 架构 的 分 布 式 系统 ， 普 遍 存 在 单 点 故障 问题 ， 在 Tachyon 分 布 式 系统 中 ， 
对 于 Master 节点 的 单 点 故障 也 是 采用 ZooKeeper 解决 ， 即 Tachyon 的 容错 是 基于 多 Master 方 
法 ， 通 过 ZooKeeper 集群 管理 进来 管理 Master， 负 责 选 出 一 个 Master 作为 Leader， 作 为 
Workers 和 Clients 访问 的 主 入 口 ， 其 他 Masters 作为 备用 (Standby) ， 使 用 共享 的 Journal 来 
确保 和 Leader 具有 相同 的 文件 系统 元 数据 ， 并 在 Leader 宕 机 时 快速 接手 。 当 作为 Leader 的 
Master 宕 机 时 会 自动 选举 出 新 的 Leader, Jf H. Workers 和 Clients 也 会 自动 连接 到 新 的 
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Leader 上 。 

实现 Master 容错 的 前 提 条 件 : 

1) 搭建 一 个 ZooKeeper 环境 ， 用 户 维护 管理 多 个 Master。 

2) 选择 一 个 共享 的 、 可 靠 的 底层 文件 系统 来 存放 Journal, 

当前 可 以 使 用 的 底层 文件 系统 有 HDFS、Amazon S3 和 GlusterFS， 这 里 选择 HDFS 作为 
底层 文件 系统 进行 案例 实践 。 

一 、 环 境 准 备 

针对 ZooKeeper 环境 ， 这 里 使 用 Flume 提供 的 ZooKeeper，ZooKeeper 的 启动 可 以 参考 第 
4.3. 3 小 节 的 内 容 处 理 Kafka 数据 源 的 实践 准备 部 分 。 同 时 要 确保 在 环境 中 已 经 安装 好 了 
Hadoop 环境 。 

二 、 环 境 配置 

1. 修改 配置 文件 conf/tachyon - env. sh， 添 加 或 修改 下 面 三 个 环境 变量 


JAVA HOME = "/lib/jdkl.7.0 71" 
export Tachyon MASTER, ADDRESS = cluste104 
export Tachyon UNDERFS ADDRESS = hdfs: //cluster04: 9000 


其 中 : 

1) JAVA_HOME 为 本 地 java 安装 目录 。 

2) Tachyon MASTER, ADDRESS 为 Master 对 外 可 见 的 地 址 ， 这 里 设置 为 Master 的 host- 
name, Bl cluster04 , 

3) Tachyon UNDERFS ADDRESS 为 底层 文件 系统 ， 这 里 使 用 HDFS，HDFS 底层 文件 系 
统 的 配置 可 以 参考 第 $.4. 1 小 节 的 内 容 。 

2. 修改 配置 文件 conf/tachyon - env. sh， 添 加 或 修改 属性 配置 

修改 前 的 属性 配置 ，; 

export Tachyon_JAVA_OPTS + =" 


— Dlog4j. configuration = file; $ CONF_DIR/log4j. properties 
— Dtachyon. debug = false 


— Dtachyon. worker. hierarchystore. level. max = 1 
— Dtachyon. worker. hierarchystore. level0. alias = MEM 
— Dtachyon. worker. hierarchystore. level0. dirs. path = $ Tachyon_RAM_FOLDER 
— Dtachyon. worker. hierarchystore. level0. dirs. quota = $ Tachyon_WORKER_MEMORY_SIZE 
— Dtachyon. underfs. address = $ Tachyon UNDERFS ADDRESS 
— Dtachyon. underfs. hdfs. impl = $ Tachyon UNDERFS HDFS IMPL 
— Dtachyon. data. folder = $ Tachyon UNDERFS. ADDRESS/ tmp/ tachyor/ data 
— Dtachyon. workers. folder = $ Tachyon UNDERFS ADDRESS/tmp/tachyon/ workers 
— Dtachyon. worker. memory. size = $ Tachyon WORKER MEMORY SIZE 
— Dtachyon. worker. data. folder = /tachyonworker/ 
— Dtachyon. master. worker. timeout. ms = 60000 
— Dtachyon. master. hostname = $ Tachyon MASTER, ADDRESS 
— Dtachyon. master. journal. folder = $ Tachyon_HOME/journal/ 
— Dorg. apache. jasper. compiler. disablejsr199 = true 


— Djava. net. preferIPv4Stack = true 
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修改 后 的 属性 配置 . 


export Tachyon_JAVA_OPTS + =" 
— Dlog4j. configuration = file; $ CONF_DIR/log4j. properties 
— Dtachyon. debug = false 
— Dtachyon. worker. hierarchystore. level. max = 1 
— Dtachyon. worker. hierarchystore. level0. alias = MEM 
— Dtachyon. worker. hierarchystore. level0. dirs. path = $ Tachyon_RAM_FOLDER 
— Dtachyon. worker. hierarchystore. level0. dirs. quota = $ Tachyon WORKER. MEMORY SIZE 
— Dtachyon. underfs. address = $ Tachyon UNDERFS ADDRESS 
— Dtachyon. underfs. hdfs. impl = $ Tachyon UNDERFS HDFS IMPL 
— Dtachyon. data. folder = $ Tachyon UNDERFS. ADDRESS/ tmp/ tachyor/ data 
— Dtachyon. workers. folder = $ Tachyon UNDERFS ADDRESS/tmp/tachyon/ workers 
— Dtachyon. worker. memory. size - $ Tachyon WORKER, MEMORY SIZE 
— Dtachyon. worker. data. folder = /tachyonworker/ 
— Dtachyon. master. worker. timeout. ms = 60000 
— Dtachyon. master. hostname = $ Tachyon MASTER, ADDRESS 
— Dtachyon. master. journal. folder = $ Tachyon UNDERFS ADDRESS/ journal/ 
— Dorg. apache. jasper. compiler. disablejsr199 = true 
— Djava. net. preferIPv4Stack = true 
— Dtachyon. usezookeeper = true 
— Dtachyon. zookeeper. address = cluster05 :2181 


Hp 

1) 修改 tachyon. master. journal. folder 配置 属性 ， 将 journal 的 目录 放置 于 HDFS 上 。 

2) 增加 tachyon. usezookeeper 和 tachyon. zookeeper. address 属性 配置 ， 根 据 当前 实际 的 
ZooKeeper 进行 设置 。 

这 里 的 tachyon. data. folder 和 tachyon. workers. folder 可 以 保持 不 变 。 

修改 完成 后 ， 需 要 将 该 配置 文件 找 贝 到 集群 中 的 其 他 节点 ， 命 令 如 下 : 


[ harli@ cluster04 tachyon ] $ sep . /conf/tachyon ~ env. sh harli@ cluster05 ;/home/harli/cluster/tachy- 
on/ conf 

tachyon — env. sh 

10096 3525 3.4KB/s 00:00 

[ harli@ cluster04 tachyon | $ scp . /conf/tachyon — env. sh 

harli@ cluster06 :/home/harli/cluster/tachyon/ conf 


tachyon — env. sh 


三 、 启 动 集群 
1. 启动 ZooKeeper 
这 里 选择 cluster05 节点 ， 进 入 Kafka 部 署 目录 ， 输 入 命令 : 


harli@ cluster05 Desktop] $ cd . . /cluster/kafka/ 

harli@ cluste105 kafka] $ vim config/zookeeper. properties 

harli@ cluster05 kafka] $ bin/zookeeper - server — start. sh — daemon config/zookeeper. properties 
harli@ cluster05 kafka] $ jps 

7464 Worker 

8030 QuorumPeerMain 


8047 Jps 

7386DataNode 
HB, QuorumPeerMain 进程 就 是 启动 的 ZooKeeper 进程 。 
2. 重新 格式 化 Tachyon 


如 果 是 首次 修改 底层 存储 系统 为 HDFS， 则 需要 进行 格式 化 ， 具 体 可 以 参考 第 5.4. 1 小 


节 的 内 容 。 
3. 启动 Tachyon 


[ harli@ cluster04 tachyon | $ . /bin/tachyon — start. sh allSudoMount 
Killed 0 processes 

Killed 0 processes 

Connection to cluster04 asharli... Killed 0 processes 
Connection to cluster04 closed. 

Connection to cluster05 asharli... Killed 0 processes 
Connection to cluster05 closed. 

Connection to cluster06 asharli... Killed 0 processes 
Connection to cluster06 closed. 

Starting master @ cluster04 

Connection to cluster04 asharli... [sudo] password for harli; 
FormattingRamFS ;/mnt/ramdisk (1gb) 

Starting worker @ cluster04 

Connection to cluster04 closed. 

Connection to cluster05 asharli... [sudo] password for harli; 
FormattingRamFS ;/mnt/ramdisk (1 gb) 

Starting worker @ cluster05 

Connection to cluster05 closed. 

Connection to cluster06 asharli... [sudo] password for harli; 
FormattingRamFS ;/mnt/ramdisk (1 gb) 

Starting worker @ cluster06 


Connection to cluster06 closed. 


查看 Web Interface 界面 ， 出 现 如 图 5. 18 所 示 内 容 表示 。 


1} Browsing HOFS X | C Tachyon x [e| 
cluster04 
*« Overview 
Tachyon Summary Cluster Usage Summary 
Master Address: cluster04/192.168.242.135:19998 Memory Capacity: 
Started: 04-18-2015 02:31:35:435 Memory Free / Used: 
Uptime: 0 day(s), 0 hour(s), 1 minute(s), and 3 second(s) UnderFS Capacity: 
Version: 0.6.3 UnderFS Free / Used: 
on is an open rce project developed at the UC Berkeley AMPLab. 


图 5.18 Tachyon 启动 后 的 界面 
启动 成 功 。 


<a) 名 ~ 


3072.00 MB 

3072.00 MB /0.00 B 
229.64 GB 

196.56 GB / 73.19 KB 
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、 测 试 Master 容错 性 


Tachyon 也 是 一 个 M/S 结构 的 框架 ， 对 应 地 ， 也 会 存在 单 点 故障 的 问题 ,这 里 测试 
Tachyon 提供 的 Master 节点 的 单 点 故障 的 解决 方案 。 
1. 启动 其 他 Master 节点 


修改 配置 文件 . /conf/tachyon - env. sh， 这 里 将 cluster06 作为 Standby Master 节点 ， 输 入 


[ harli@ clustei06 tachyon | $ vim . /conf/tachyon - env. sh 


修改 cluster06 节点 上 配置 文件 中 的 Tachyon_MASTER_ADDRESS 环境 变量 ， 具 体 如 下 : 
export Tachyon_MASTER_ADDRESS = cluste106 


2. 启动 Master 进程 


[ harli@ cluster06 tachyon | $ . /bin/tachyon — start. sh master 
Starting master @ cluster06 

[ harli@ cluster06 tachyon] $ jps 

2374 Worker 

2305DataNode 

6981TachyonWorker 

7046TachyonMaster 

7075 Jps 


启动 的 Master 进程 TachyonWorker, 47% Standby Master, 
3. 关闭 cluster04 上 的 Master 进程 


[ harli@ cluster04 tachyon] $ jps 

8344 Worker 

16486 Jps 

16258 TachyonMaster 

7837 DataNode 

7734NameNode 

8022Secondary NameNode 

8188 Master 

16395 Tachyon Worker 

[ harli@ cluster04 tachyon] $ kill -9 16258 


查看 新 的 Master 上 的 Web Interface (http: //cluster06: 19999) 界面 ， 如 图 5. 19 所 示 。 


|; Browsing HDFS X |E Tachyon X | Tachyon X [3e] 
和 | & clusteros FIC 
* Overview 
Tachyon Summary Cluster Usage Summary 
Master Address: cluster06/192.168.242.137:19998 Memory Capacity: 3072.00 MB 
Started: 04-18-2015 03:29:29:013 Memory Free / Used: 3072.00 MB / 0.00 B 
Uptime: 0 day(s), 0 hour(s), 1 minute(s), and 36 second(s) UnderFS Capacity: 229.64 GB 
Version: 0.6.3 UnderFS Free / Used: 196.55 GB / 132.79 KB 


Running Workers: 3 


Tachyon is an open source project developed at the UC Berkeley AMPLab. 


图 $. 19 Tachyon 切换 master 后 的 界面 
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4. 查看 Active 5j Standby Master 的 切换 
切换 Master 的 时 间 大 概 在 十 几 秒 左 右 ， 从 图 5. 19 的 界面 可 以 看 到 ，Master 节点 已 经 成 
功 切换 到 cluster06 了 。 
需要 注意 的 两 点 : c 
1) 作为 Master 节点 时 ， 需 要 已 经 配置 ssh 无 密 登 录 到 其 他 节点 。 
2) 另外 ， 当 前 测试 时 ， 需 要 在 希望 启动 TachyonMaster 进程 的 这 个 节点 上 ， 修改 属性 配 
置 ， 然 后 在 这 个 节点 上 启动 TachyonMaster 进程 。 修 改 属性 配置 Tachyon MASTER, ADDRESS 
为 其 他 节点 的 地 址 时 ， 比 如 修改 为 cluster05 ， 然 后 调用 脚本 . /bin/tachyon - start. sh master 启 
动 TachyonMoster 进程 的 话 ， 这 个 修改 后 的 属性 TACHYON MASTER ADDRESS 的 值 对 应 的 其 
他 节点 ， 如 cluster05 ， 是 不 会 启动 TachyonMaster 进程 的 ， 查 看 日 志 : 


[ harli@ clustei06 tachyon | $ vim . /logs/master. out 
报错 HE 如 下 : 


Exception in thread "main" java. lang. RuntimeException; tachyon. org. apache. thrift. transport. 
TTransportException ; Could not create ServerSocket on address cluster05/192. 168. 242. 136: 19998. 

at com. google. common. base. Throwables. propagate ( Throwables. java: 160 ) 

at tachyon. master. TachyonMaster. < init > ( TachyonMaster. java :134) 

at tachyon. master. TachyonMaster. main ( TachyonMaster. java :60 ) 
Caused by: tachyon. org. apache. thrift. transport. TTransportException: Could not create ServerSocket on 
address cluster05/192. 168. 242. 136: 19998. 

at tachyon. org. apache. thrift. transport. TNonblockingServerSocket. < init > ( TNonblockingSer- 
verSocket. java 89 ) 

at tachyon. org. apache. thrift. transport. TNonblockingServerSocket. « init » ( TNonblockingSer- 
verSocket. java: 72) 

at tachyon. master. TachyonMaster. < init > ( TachyonMaster. java;110) 


. | more 


五 、Tachyon 容错 机 制 的 扩展 

除了 使 用 高 可 用 (High Availability, HA) 方式 对 Master 节点 进行 容错 外 ， 对 于 具体 的 
文件 数据 ，Tachyon 借鉴 了 Spark， 使 用 血统 关系 (Lineage) 进行 容错 。 文 件 元 数据 中 记录 
了 文件 之 间 的 依赖 关系 ， 当 文件 丢失 时 ， 能 够 根据 依赖 关系 进行 重 计算 来 恢复 文件 数据 。 


Tachyon 配置 的 案例 与 解析 


以 目前 常用 的 HDFS 底层 存储 系统 进行 案例 与 解析 ， 并 在 此 基础 上 ， 进 一 步 提供 Tachy- 
on 各 个 配置 属性 的 解析 。 


底层 存储 系统 的 配置 案例 与 解析 3 


这 一 节 以 目前 大 数据 平台 最 常用 的 HDFS 作为 底层 存储 系统 ， 进 行 配置 案例 与 解析 。 
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一 、 环 境 配置 
1. 修改 配置 文件 conf/tachyon - env. sh， 添 加 或 修改 下 面 三 个 环境 变量 


JAVA, HOME = "/lib/jdkl. 7.0 71" 
export Tachyon MASTER, ADDRESS = cluste104 
export Tachyon UNDERFS ADDRESS = hdfs: //cluster04: 9000 


其 中 : 

1) JAVA. HOME 为 本 地 Java 安装 目录 。 

2) Tachyon_MASTER_ADDRESS 为 master 对 外 可 见 的 地 址 ， 这 里 设置 为 Master 的 host- 
name, EJ cluster04, 

3) Tachyon UNDERFS ADDRESS 为 底层 文件 系统 ， 这 里 使 用 HDFS，HDFS 的 地 址 可 以 
查看 配置 文件 ， 也 可 以 直接 从 界面 查看 ，Web Interface (http: //cluster04: 50070/) 界面 如 下 ， 
其 中 带 方 框 的 地 方 就 是 当前 Hadoop 集群 的 HDFS 地 址 ， 如 图 5. 20 所 示 。 


© Namenode information | | 
€ [ d SITSSPENgdfhealth.htmlstab-overview v S) EM 


Hadoop Overview Datanodes Snapshot Startup Progress Utilities 


Overview| cluster04:9000' (active) 


Started: Sat Apr 18 01:57:15 PDT 2015 

Version: 2.6.0, rUnknown 

Compiled: 2015-01-05T10:00Z by root from Unknown 
Cluster ID: CID-671c3dc2-403f-432c-a79d-01290404f9f4 
Block Pool ID: BP-769308324-192.168.242.135-1429206880111 


图 5.20 Hadoop 的 概览 界面 


2. 修改 配置 文件 conf/tachyon - env. sh， 添 加 或 修改 属性 配置 
修改 前 的 属性 配置 
export Tachyon_JAVA_OPTS + =" 


— Dlog4j. configuration = file; $ CONF_DIR/log4j. properties 
— Dtachyon. debug = false 


— Dtachyon. worker. hierarchystore. level. max = 1 
— Dtachyon. worker. hierarchystore. level0. alias = MEM 
— Dtachyon. worker. hierarchystore. level0. dirs. path = $ Tachyon_RAM_FOLDER 
— Dtachyon. worker. hierarchystore. level0. dirs. quota = $ Tachyon WORKER. MEMORY SIZE 
— Dtachyon. underfs. address = $ Tachyon UNDERFS ADDRESS 
— Dtachyon. underfs. hdfs. impl = $ Tachyon UNDERFS HDFS IMPL 
— Dtachyon. data. folder = $ Tachyon UNDERFS. ADDRESS/ tmp/ tachyor/ data 
— Dtachyon. workers. folder = $ Tachyon UNDERFS ADDRESS/tmp/tachyon/ workers 
— Dtachyon. worker. memory. size = $ Tachyon WORKER, MEMORY SIZE 
— Dtachyon. worker. data. folder = /tachyonworker/ 
— Dtachyon. master. worker. timeout. ms = 60000 
— Dtachyon. master. hostname = $ Tachyon MASTER, ADDRESS 


EL Tachyon 实践 案例 与 解析 


— Dtachyon. master. journal. folder = $ Tachyon HOME/journal/ 
— Dorg. apache. jasper. compiler. disablejsr199 = true 


— Djava. net. preferIPv4Stack = true 


修改 后 的 属性 配置 : S 


export Tachyon JAVA. OPTS + =" 
— Dlog4j. configuration = file; $ CONF_DIR/log4j. properties 
— Dtachyon. debug = false 


— Dtachyon. worker. hierarchystore. level. max = 1 

— Dtachyon. worker. hierarchystore. level0. alias = MEM 

— Dtachyon. worker. hierarchystore. level0. dirs. path = $ Tachyon_RAM_FOLDER 

— Dtachyon. worker. hierarchystore. level0. dirs. quota = $ Tachyon WORKER. MEMORY SIZE 
— Dtachyon. underfs. address = $ Tachyon UNDERFS ADDRESS 

— Dtachyon. underfs. hdfs. impl = $ Tachyon UNDERFS HDFS IMPL 

— Dtachyon. data. folder = $ Tachyon UNDERFS. ADDRESS/ tmp/ tachyon/ data 

— Dtachyon. workers. folder = $ Tachyon UNDERFS ADDRESS/tmp/tachyon/ workers 
— Dtachyon. worker. memory. size - $ Tachyon WORKER, MEMORY SIZE 

— Dtachyon. worker. data. folder = /tachyonworker/ 

— Dtachyon. master. worker. timeout. ms = 60000 

— Dtachyon. master. hostname = $ Tachyon MASTER, ADDRESS 

— Dtachyon. master. journal. folder = $ Tachyon UNDERFS. ADDRESS/ journal/ 

— Dorg. apache. jasper. compiler. disablejsr199 = true 


— Djava. net. preferIPv4Stack = true 


修改 tachyon. master. journal. folder 配置 属性 ， 将 journal 的 目录 放置 于 HDFS E; 
ER: 修改 完成 后 ， 需 要 将 该 配置 文件 复制 到 集群 中 的 其 他 节点 中 ， 命令 如 下 : 


[ harli@ cluster04 tachyon] $ scp . /conf/tachyon - env. sh harli@ cluster05: /home/harli/cluster/tachy- 
on/conf 

tachyon — env. sh 

10096 3525 3.4KB/s 00:00 

[ harli@ cluster04 tachyon] $ sep . /conf/tachyon - env. sh harli@ cluster06: /home/harli/cluster/tachy- 
on/ conf 


tachyon — env. sh 


3. 重新 格式 化 Tachyon 
由 于 当前 底层 文件 系统 已 经 修改 为 HDFS， 因 此 需要 重新 进行 格式 化 ,构建 相关 目录 ， 
用 于 存放 文件 系统 的 元 数据 等 信息 。 


[ harli@ cluster04 tachyon] $ vim conf/tachyon — env. sh 

[ harli@ cluster04 tachyon] $ . /bin/tachyon format 

Connection to cluster04 asharli... Formatting Tachyon Worker @ cluster04 
Connection to cluster04 closed. 

Connection to cluster05 asharli... Formatting Tachyon Worker @ cluster05 
Connection to cluster05 closed. 

Connection to cluster06 asharli... Formatting Tachyon Worker @ cluster06 
Connection to cluster06 closed. 

Formatting Tachyon Master @ cluster04 

[ harli@ cluster04 tachyon | $ 
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4. 验证 
查看 HDFS 文件 系统 信息 ， 进 入 Web Interface 界面 (http: cluster04: 50070), ， 如 图 5.21 
所 示 。 
| © Browsing HDFS lal 
和 (3 custeros xplorer himla ~g ~ E 


Hadoop Overview Datanodes Snapshot 5tartup Progress 


Browse the file system 


Logs 


Browse Directory 


/ Go! 


Permission Owner Group Size Replication Block Size 
drwxr-xr-x harli supergroup 0B 0 0B 
drwxr-xr-x harli supergroup DB 0 0B 


Hadoop, 2014. 


5.21 Tachyon 格式 化 的 后 底层 文件 系统 信息 


可 以 看 到 ， 在 HDFS 的 根 目录 下 ， 已 经 成 功 创建 了 放置 journal 的 目录 和 放置 Tachyon 的 
文件 系统 信息 的 tachyon. data. folder 和 tachyon. workers. folder 目录 。 


SOLA 配置 属性 与 解析 


Tachyon 的 程序 运行 参数 配置 分 为 四 类 : Master 配置 ，Worker 配置 ， 通 用 配置 (Mas- 
ter 和 Worker) 和 用 户 配置 。 可 以 在 配置 文件 conf/tachyon - env. sh 中 修改 或 添加 这 些 配 置 
属性 。 通 常 在 提供 的 conf/tachyon - env. sh. template 上 进行 修改 ， 先 复制 该 文件 ， 然 后 在 
Tachyon_JAVA_OPTS 中 定义 这 些 配 置 属 性 。 另 外 ，jJava VM 的 参数 ， 对 于 Master， 可 以 使 
用 Tachyon MASTER. JAVA. OPTS 进行 设置 ， 对 于 Worker, "JVE Tachyon WORKER -. 
JAVA_OPTS 进行 设置 。 比 如 ， 如 果 要 远程 调试 Master 的 话 ， 可 以 修改 Tachyon_MASTER_ 
JAVA_OPTS， 如 果 以 7001 端口 进行 远程 调试 的 话 ， 可 以 设置 为 : 
export Tachyon MASTER, JAVA, OPTS =" $ Tachyon JAVA, OPTS - agentlib:jdwp = transport = dt_ 


M —— HÉÓ address = 7001" 

启动 Master 后 ， 会 开始 监听 7001 端口 ， 直 到 IDE 等 工具 开始 调试 。 

官方 网 站 上 的 一 些 属 性 配置 默认 值 和 源码 中 有 差异 ， 且 部 分 属性 未 列 出 。 可 以 查看 相关 
类 来 确认 ， 这 里 以 官方 网 站 为 准 ; 另外 属性 配置 文件 tachyon - env. sh. template 中 也 提供 了 
一 些 配置 属性 的 默认 值 。 属 性 配置 相关 的 类 在 tachyon. conf 路 径 下 。 

一 、 通 用 配置 

常见 的 配置 用 于 Master 和 Worker， 包 含 指定 路 径 的 常量 和 日 志 appender 的 名 字 。 参 见 
表 5. 1。 


第 5 章 Tachyon SCs bl Shean 


对 应 源码 类 为 ， tachyon. conf. CommonConf, 
表 5.1 通用 配置 及 其 含义 


配置 属性 


默 认 值 


& x 


tachyon. home 


/mnt/tachyon, default home 


Tachyon 的 安装 路 径 。 这 个 配置 很 重要 ， 比 如 ， 
Master 会 对 各 个 Worker 的 状态 进行 监控 ， 发 现 Worker 
失效 时 会 自动 重启 对 应 的 Worker。 而 重启 时 的 命令 就 
是 在 Tachyon 的 安装 路 径 下 查找 的 


tachyon. underfs. address 


$ tachyon. home + " /underfs" 


Tachyon 在 底层 文件 系统 中 的 路 径 


tachyon. data. folder 


$ tachyon. underfs. address 
+"/tmp/tachyon/data" 


Tachyon 数据 在 底层 文件 系统 的 存放 路 径 


tachyon. workers. folder 


$ tachyon. underfs. address 


+ "/imp/tachyon/ workers" 


Tachyon Workers 在 底层 文件 系统 的 存放 路 径 


tachyon. usezookeeper false Jew ZooKeeper 设置 Master 容错 
a k sid T Master 容错 时 ZooKeeper AY Jb Ab, 1X tachy- 
i nu on. usezookeeper 为 true 时 有 效 
tachyon. zookeeper election. Jelecti Zookeeper 的 election 文件 夹 ， fx. tachyon. usezookeeper 
path don 为 true 时 有 效 
tachyon. zookeeper leader. jezd Zookeeper AY leader X fF 3€ PR $$, 1X tachy- 
path BRAGER on. usezookeeper 为 true 时 有 效 

在 使 用 HDFS 作为 底层 存储 系统 时 ， 所 用 的 HDFS 


tachyon. underfs. hdfs. impl 


org. apache. hadoop. hdfs. 
DistributedFileSystem 


实现 类 。Tachyon 实现 HDFS 的 接口 ， 所 以 可 以 用 和 


HDFS 支持 的 其 他 文件 系统 一 样 的 方式 去 使 用 ， 即 通 
过 指定 Scheme 来 识别 文件 系统 


tachyon. max. columns 


1000 


Tachyon 中 RawTable 人 允许 的 最 大 列 数 ， 必 须 在 Client 


和 


Server 侧 同 时 设置 


tachyon. table. metadata. byte 


5242880， 即 5 MB 


Tachyon 中 RawTable 元 数据 允许 存储 的 最 大 字 节 数 。 


必 


须 在 Server 侧 设置 。 注 : 在 源码 中 没有 找到 该 属性 。 


应 该 改 为 tachyon. max. table. metadata. byte 属性 


在 将 S3 作为 底层 存储 系统 时 ，S3 


的 AWS Access 


fs. s3n. awsAccessKeyld null Key Id， 是 常见 的 用 户 和 名， 用 来 区 分 用 户 

fs. s3n. awsSecretAccessKe null 在 将 S3 作为 底层 存储 系统 时 ， $3 的 AWS Seng 

ui M 2L 2 JI， 是 用 于 计算 签名 的 

tdk Jerfa elusterf ll 使 用 GlusterFS 为 底层 文件 系统 时 ，GlusterFS 卷 的 挂 

achyon. underfs. glusterfs nu RAE, EW: /vol 

. mounts 

tachyon. underfs. glusterfs. T 使 用 GlusterFS 为 底层 文件 系统 时 ，GlusterFS 的 卷 
nu 


volumes 


比如 : /tachyon_vol 


tachyon. underfs. glusterfs. 


mapred. system. dir 


glusterfs ;///mapred/system 


可 选 配 置 ， 使 用 GlusterFS 作为 底层 文件 系统 时 ， 


GlusterFS 用 于 存放 MapReduce 中 间 数 据 的 子 目 录 


tachyon. underfs. hadoop. prefixes 


hdfs ://s3 ://s3n://glus- 
terfs:/// 


m 


H 
或 


可 选 配 置 ， 底 层 文 件 系统 通过 Hadoop 实现 时 ,使 
的 前 缀 列表 ， 分 隔 符 可 以 是 任何 空白 分 隔 符 和 / 


» o» 
, 


tachyon. master. retry 


29 


以 


连接 Master 失败 时 的 重 试 次 数 。29 次 是 最 大 值 ， 会 
指数 方式 递增 重 试 的 时 间 


Z., Master 配置 
用 于 Master 节点 的 配置 信息 ， 比 如 Master 节点 使 用 的 地 址 和 端口 号 等 。 参 见 表 5.2, 
对 应 源码 类 为 : tachyon. conf. MasterConf。 


#5.2 Master 配置 及 其 含义 


配置 属性 


默 认 值 
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a 


义 


tachyon. master. journal. 


folder 


$ tachyon. home + " /journal/" 


存放 Master 的 Journal 日 志 


据 使 用 Journal 进行 容错 ， 


具体 包括 Editlog 


的 路 径 。Master 中 保存 的 元 数 
记录 所 有 对 


元 数据 的 操作 ， 以 及 Image 


持久 化 元 数据 信息 


tachyon. master hostname localhost TachyonMaster 对 外 可 见 的 主机 名 
tachyon. master. port 19998 TachyonMaster 的 通讯 端口 
tachyon. master. web. port 19999 TachyonMaster 的 Web Interface 端口 
可 缓存 的 路 径 前 缀 列表 ， 列 表 以 逗号 隔 开 ， 表 示 该 路 径 
下 的 文件 可 以 被 缓存 到 内 存 。 当 文件 可 缓存 时 ， 第 一 次 读 
tachyon. master. whitelist / 取 该 文件 后 就 会 尝试 缓存 到 内 存 中 。 可 以 通过 该 属性 设置 
优先 缓存 的 路 径 ， 并 将 使 用 频繁 的 文件 存放 在 该 路 径 下 ， 
提高 性 能 
tachyon. master. web. SN mom 
1 TachyonMaster 用 于 Web Server 的 线程 数 


threads 


tachyon. master. keytab. 
file 


用 于 Tachyon master 的 Kerberosk: 


eytab 文件 


tachyon. master. principal 


=. Worker 配置 


用 于 Tachyon master 的 Kerberos principal 


用 于 Masters 节点 的 配置 信息 ， 比 如 Worker 节点 使 用 的 地 址 和 端口 号 等 ， 人 参见 表 5.3。 
对 应 源码 类 为 : tachyon. conf. WorkerConf， 部 分 属性 配置 在 其 他 类 中 (如 tachyon. master 


路 径 下 的 两 个 类 )。 


表 5.3 Worker 配置 及 其 含义 


配置 属性 默 认 dB T A 

tachyon. work. port 29998 Tachyon Worker 的 通讯 端 

tachyon. worker. data. 4% ds Jy 

i 29999 Tachyon Worker 的 数据 传输 服务 的 端口 

tachyon. worker. data. Tachyon 的 worker 节点 在 各 个 存储 目录 中 存放 数据 的 
/tachyonworker/ BALA 

folder 相对 路 径 

bd iEn ONE 128M 每 个 TachyonWorker 节点 可 使 用 的 内 存 大 小 

size 

tachyon. worker. 1 分 层 存储 中 的 最 大 级 别 。 目 前 存储 级 别 包 括 MEM 

hierarchystore. level. max (1)、SSD(2) 、HDD(3) 三 层 

tachyon. worker. hierarchystore. MEM 存储 最 高 层 的 别名 。 

level0. alias 

tachyon. worker. hierarchystore. /mnt/ lisk/ 最 高 层 存 储 对 应 的 存储 路 径 。 注 意 ，macs 中 的 路 径 应 

level0. dirs. path 该 使 用 “/Volumes/” 

tachyon. worker. hierarchystore. $ { pee worker. memory. 存储 最 高 层 分 配 的 内 存 大 小 

level0. dirs. quota size | 
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(5) 
配置 属性 SR dA dH 9 X 
Worker 在 特定 存储 层 对 存储 目录 的 空间 分 配 策略 。 有 具 
tachyon. worker. allocate. MAX FREE 体 包括 : MAX_FREE， 在 最 大 剩余 空间 的 存储 目录 上 分 
strategy fic; MAX_FREE， 随 机 进行 分 配 ; ROUND. ROBIN, ， 采 
用 圆桌 算法 分 配 


Worker 在 存储 层 空间 不 足 时 ， 使 用 的 块 文件 释放 策 
LRU 略 。 具 体 包 括 : LRU， 多 个 存储 目录 上 的 最 近 最 少 使 


tachyon. worker. evict. 


SEY 的 策略 ， PARTIAL_LRU， 特 定 最 近 最 少 使 用 的 策略 
tachyon. worker. network. Worker 上 不 同 的 网 络 实现 ， 有 效 值 包括 NETTY 

NETTY 
type All NIO 
tachyon. worker. network. EPOLL 选择 Netty 的 Channel 实现 。 在 Linux 上 使 用 epoll, A 
netty. channel 效 值 包括 NIO 和 EPOLL 
tachyon. worker. network. SEXES WYP qn 

1 Neuy 接受 新 请 求 的 线程 数 

netty. boss. threads 
tachyon. worker. network. 0 Netty 处 理 请 求 的 线程 数 。 应 该 设置 在 默认 值 0 和 # 
netty. worker. threads cpuCores * 2 之 间 


向 用 户 返 回 文件 时 ， 所 使 用 的 传输 方式 。 有 效 值 包括 
MAPPED MAPPED (使 用 java MappedByteBuffer) 和 TRANSFER 
(使 用 Java FileChannel. transferTo ) 


tachyon. worker. network. 


netty. file. transfer 


Netty 中 ChannelOutboundBuffer 的 高 水 位 线 。 当 Buffer 
的 大 小 超过 高 水 位 线 的 时 候 对 应 Channel 的 isWritable 就 
会 变 成 false， 当 Buffer 的 大 小 低 于 低 水 位 线 的 时 候 ， 


isWritable 就 会 变 成 true 


tachyon. worker. network. 32768， 即 32 KB 
netty. watermark. high 


Netty 中 ChannelOutboundBuffer 的 低 水 位 线 。 一 旦 到 达 


be uad rid 8192, EN 8 KB 高 水 位 线 ， 在 切换 到 可 写 状态 前 ， 队 列 就 应 该 刷新 到 低 
netty. watermark. low pm 

水 位 线 
tachyon. worker. network. 128 li 在 拒绝 新 的 请 求 之 前 ， 队 列 可 以 缓存 的 请 求 数 。 该 值 
netty. backlog 9n nux 依赖 于 具体 的 平台 
tachyon. worker. network. 平台 相关 为 Socket 设置 SO _SNDBUF。 更 多 细节 可 以 在 Socket 
netty. buffer. send B 帮助 页 查看 
tachyon. worker. network. 平台 相关 为 Socket 设置 SO_RCVBUF。 更 多 细节 可 以 在 Socket 
netty. buffer. receive S 帮助 页 查看 
tachyon. worker. keytab. 


file Tachyon Worker 的 Kerberoskeytab 文件 


tachyon. worker. 
pcr DE Tachyon Worker 的 Kerberos principal 
principal 


四 、 用 户 配 置 
用 户 配置 信息 ， 指 定 文件 系统 访问 相关 的 属性 值 。 参 见 表 5.4, 
对 应 源码 类 为 : tachyon. conf. UserConf。 
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表 5.4 用 户 配 置 及 其 含义 
配置 属性 默 认 值 会 X 


tachyon. user. failed. space. 


3 向 文件 系统 请 求 空间 失败 前 的 最 大 重 试 次 数 


request. limits 


默认 Tachyon 文件 的 写 类 型 ， 包 括 命令 行 接口 (CLD 中 


acbyoneuser his: matey pe CACHE_THROUGH 的 copyFromLocal 和 Hadoop 兼容 接口 。 可 以 是 WriteType 定 


Dinan 义 的 任何 类 型 

tachyon. user. quota. unit. bytes 8 MB 用 户 一 次 向 Tachyon Worker 请 求 的 最 少 字 节 数 

tachyon. user. file. buffer. byte 1 MB 文件 系统 读 写 文件 时 的 缓存 大 小 

Rr ELE 1 GB Tachyon 文件 的 默认 块 大 小 。 源 码 中 默认 值 为 512 MB 
tachyon. user. remote. read. 8 MB 用 户 从 远程 Tachyon Worker 读 取 文 件 时 的 缓冲 大 小 
buffer size. byte 

tachyon. worker network. 16 用 于 处 理 块 请 求 的 线程 数 。 注 : 该 属性 应 该 属于 Worker 


配置 ， 且 默认 值 为 0， 源 码 中 位 于 WorkerConf 类 


netty. process. threads 


命令 行 接口 的 案例 与 解析 


进行 命令 行 接口 的 案例 实践 时 ， 已 经 部 署 了 Tachyon 集群 ， 并 且 配 置 了 容错 处 理 ， 即 启 
动 了 ZooKeeper 对 Master 进行 管理 ; 启动 了 HDFS， 同 时 将 HDFS 配置 为 Tachyon 的 底层 文件 
系统 。 

Tachyon 的 命令 行 界面 让 用 户 可 以 对 文件 系统 进行 基本 的 操作 。 调 用 命令 行 工 具 使 用 以 
下 脚本 : 


. /bin/tachyontfs 


文件 系统 访问 的 路 径 格式 如 下 : 


tachyon: // < master node address >: < master node port » / < path > 


其 中 tachyon: // < master node address >: < master node port > 前缀 可 以 省 略 ， 可 以 从 配置 
文件 中 读 取 。 

注意 ; wo RRA BAW, 需要 指定 Active 的 Master 节点 地 址 ， 比 如 ,使 用 地 址 为 : 
192. 168. 242. 137 :19998 。 该 地 址 信息 可 以 从 Web Interface 界面 获取 。 


cL 命令 行 接口 的 说 明 


可 以 通过 Tachyon 的 tfs 的 help 选项 ， 查 看 命令 接口 的 说 明 信 息 。 有 具体 命令 如 下 所 示 : 


[ harli@ cluster04 tachyon] $ ./bin/tachyontfs — help 
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Usage : javaTF'sShell 

[cat «path » ] 

[count «path » ] 

[ls «path > ] : 
[lsr « path » ] S 
[mkdir < path > |] 

[rm <path> ] 

[rmr <path> ] 

[tail «path > ] 

[touch «path > | 

[mv «sre» «dst» ] 

[ copyFromLocal «sre > < remoteDst > | 

[copyToLocal < sre > «localDst > ] 

[fileinfo < path > | 

[location « path » ] 

[report < path > ] 

[request «tachyonaddress > < dependencyld > ] 

[pin <path > ] 

[unpin « path » ] 


[free «file pathlfolder path > ] 
其 中 大 部 分 的 命令 含义 可 以 参考 Linux 下 同名 命令 ， 命 


表 5.5 Tachyon 命令 行 接 口 的 命令 及 其 含义 
a 


“> 
kt 
$ 
ab 
x 
` 
= 
2 


fr 4 x 
cat 将 文件 内 容 输出 到 控制 台 
count 显示 匹配 指定 的 前 级 “路 径 ” 的 文件 夹 和 文件 的 数量 
ls 列 出 指定 路 径 下 所 有 的 文件 和 目录 信息 ， 如 大 小 等 
ler 递归 地 列 出 指定 路 径 下 所 有 的 文件 和 目录 信息 ， 如 大 小 等 
mkdir 在 给 定 的 路 径 创建 一 个 目录 ， 以 及 任何 必要 的 父 目 录 。 如 果 路 径 已 经 存在 将 会 失败 
m j 除 一 个 文件 。 如 果 是 一 个 目录 的 路 径 将 会 失败 
mr I 除 一 个 文件 或 目录 ， 以 及 该 目录 下 的 所 有 文件 夹 和 文件 
tail 输出 指定 文件 的 最 后 1 kb 到 控制 台 
touch 在 指定 的 路 径 创建 一 个 0 字 节 的 文件 
mv 移动 指定 的 源 文件 或 源 目录 到 一 个 目的 路 径 。 如 果 目 的 路 径 已 经 存在 将 会 失败 
copyFromLocal 将 本 地 指定 的 路 径 复制 到 Tachyon 中 指定 的 路 径 。 如 果 Tachyon 中 指定 的 路 径 已 经 存在 将 会 失败 
copy ToLocal 从 Tachyon 中 指定 的 路 径 复制 本 地 指定 的 路 径 
fileinfo 输出 指定 文件 的 块 信息 
location 输出 存放 指定 文件 的 所 在 节点 列表 信息 
report 向 Master 报告 文件 丢失 
request 根据 指定 的 dependency ID ， 请 求 文件 
将 指定 的 路 径 常 驻 在 内 存 中 。 如 果 指 定 的 是 一 个 文件 夹 ， 会 递归 地 包含 所 有 文件 以 及 任何 在 
ive 这 个 文件 夹 中 新 创建 的 文件 
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( 续 ) 


撤销 指定 路 径 的 常 驻 内 存 状态 。 如 果 指 定 的 是 一 个 文件 夹 ， 会 递归 地 包含 所 有 文件 以 及 任何 


ampin 在 这 个 文件 夹 中 新 创建 的 文件 
P 释放 一 个 文件 或 一 个 文件 夹 下 的 所 有 文件 的 内 存 。 文 件 /文件 夹 在 underfs (底层 文件 系统 ) 
仍然 是 可 用 的 


下 面 举例 一 些 命令 的 案例 实践 及 解析 。 


S59 命令 行 接 口 的 案例 实践 与 解析 


和 Hadoop 一 样 ，Tachyon 也 提供 了 一 批 命令 行 接口 来 对 Tachyaon 文件 系统 进行 操作 。 
本 节 针 对 这 些 命 令 行 接口 给 出 具体 的 操作 案例 及 其 解析 。 

1. copyFromLocal 

首先 将 本 地 conf 目录 复制 到 Tachyon 文件 系统 的 根 目录 下 的 conf 子 目录 。 


[ harli@ cluster04 tachyon] $ . /bin/tachyontfscopyFromLocal . /conf/ conf 
Copied . /conf to/conf 


2. copyToLocal 


[ harli@ cluster04 tachyon] $ . /bin/tachyon tfs copyToLocal /conf /home/harli/cluster/tachyon/conflo- 
cal 
Exception in thread " main" java. lang. NullPointerException 

at tachyon. client. TachyonFile. getInStream ( TachyonFile. java ; 165 ) 

at tachyon. command. TFsShell. copyToLocal ( TFsShell. java :204 ) 

at tachyon. command. TFsShell. run( TFsShell. java :606 ) 

at tachyon. command. TFsShell. main( TFsShell. java ;58) 
[ harli@ cluster04 tachyon] $ . /bin/tachyon tfs copyToLocal /conf/tachyon — env. sh /home/harli/clus- 
ter/tachyon/ conflocal 
Copied /conf/tachyon - env. sh to /home/harli/cluster/tachyon/conflocal 


注意 : 命令 中 的 sre 必须 是 Tachyon 文件 系统 中 的 文件 ， 不 支持 目录 复制 。 

3. ls 和 Isr 

使 用 ls Fil Isr 命令 查看 Tachyon 文件 系统 下 的 文件 信息 。 其 中 Isr 命令 可 以 递归 地 查看 子 
目录 。 这 里 给 出 了 带路 径 前 级 和 使 用 默认 前 缀 的 两 种 paih ( 即 对 应 有 无 前 缀 : tachyon :// 
cluster06 :19998 ) 。 


[ harli@ cluste104. tachyon | $ . /bin/tachyon tfs ls / 


0. 00 B 04 -18 -2015 03: 46: 41: 184 / conf 

[ harli@ cluste104. tachyon | $ . / bin/tachyon tfs ls tachyon ;//cluster06: 19998/ 

0. 00 B 04 -18 -2015 03: 46: 41: 184 / conf 

[ harli@ cluster04 tachyon] $ . /bin/tachyon tfs ls /conf 

3525.00 B 04 - 18 - 2015 03:46:41:280 In Memory / conf/tachyon — env. sh 

3042.00 B 04 — 18 - 2015 03: 46: 44: 857 In Memory /conf/tachyon — glusterfs 


— env. sh. template 


83.00 B 04-18 -2015 03:46:44:989 In Memory / conf/ slaves 
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3356. 00 B 04 - 18 - 2015 03:46:45: 185 In Memory / conf/tachyon — env. sh. template 
114.00 B 04 - 18 - 2015 03: 46:45:309 In Memory / conf/ workers 
1971. 00 B 04 - 18 - 2015 03:46: 45:433 In Memory / conf/log4j. properties 
[ harli@ cluster04 tachyon | $ . /bin/tachyon tfs Isr / C» 
0.00 B 04 -18 - 2015 03: 46: 41: 184 / conf 
3525.00 B 04 - 18 - 2015 03:46:41:280 In Memory / conf/tachyon — env. sh 
3042.00 B 04 — 18 - 2015 03: 46: 44: 857 In Memory /conf/tachyon — glusterfs 
— env. sh. template 
83.00 B 04-18 -2015 03:46:44:989 In Memory / conf/slaves 
3356. 00 B 04 - 18 - 2015 03:46:45:185 In Memory / conf/tachyon - env. sh. template 
114.00 B 04 - 18 - 2015 03: 46:45:309 In Memory / conf/ workers 
1971. 00 B 04 - 18 - 2015 03:46: 45:433 In Memory / conf/log4j. properties 
4. count 


统计 当前 路 径 下 的 目录 、 文 件 信息 ， 包 括 文件 数 、 目 录 树 以 及 总 的 大 小 。 


[ harli@ cluster04 tachyon | $ . /bin/tachyon tfs count / 


File Count Folder Count Total Bytes 
6 2 12091 
[ harli@ cluster04 tachyon] $ . /bin/tachyon tfs count /conf 
File Count Folder Count Total Bytes 
6 1 12091 
5. cat 
查看 指定 文件 的 内 容 。 


[ harli@ cluster04 tachyon] $ . /bin/tachyon tfs cat /conf 

/ conf is not a file. 

[ harli@ cluster04 tachyon] $ . /bin/tachyon tfs cat /conf/tachyon - env. sh 
4! /usr/bin/env bash 


# This file contains environment variables required to run Tachyon. Copy it as tachyon — env. sh and 
#edit that to configure Tachyon for your site. At a minimum, 


# the following variables should be set: 


6. mkdir, rm, rmr 和 touch 


mkdir; 创建 目录 ， 支 持 自动 创建 不 存在 的 父 目 录 。 

rm; 删除 文件 ， 不 能 删除 目录 。 

mmr: 删除 目录 ， 文 持 递 归 ， 包 含 子 目 录 和 文件 。 注 意 ， 递 归 删 除根 目录 是 无 效 的 。 
touch; 创建 文件 ， 不 能 创建 已 经 存在 的 文件 。 


[ harli@ cluster04 tachyon] $ . /bin/tachyon tfs mkdir / mydir 
Successfully created directory /mydir 

[ harli@ cluster04 tachyon] $ ./bin/tachyon tfs ls / 

0.00 B 04 -18 -2015 03: 46: 41: 184 / conf 
0.00 B 04 -18 —2015 04: 08: 01: 730 / mydir 
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[ harli@ cluster04 tachyon | $ . / bin/tachyon tfs touch /mydir2/2/2/ my. txt 
/mydir2/2/2/my. txt has been created 
[ harli@ cluster04 tachyon] $ ./bin/tachyon tfs lsr /mydir2 


0.00 B 04 -18 -2015 04: 15: 25: 052 /mydi12/2 
0.00 B 04 -18 -2015 04: 15: 25: 052 /mydir2/2/2 
0. 00 B 04 -18 -2015 04: 15:25:052 In Memory / mydi12/2/2/ my. txt 


[ harli@ cluster04 tachyon] $ . /bin/tachyon tfs rm /mydir 

can t remove a directory, please tryrmr < path > 

[ harli@ cluster04 tachyon] $ . /bin/tachyontfs touch /mydir/my. txt 
/ mydir/my. txt has been created 


[ harli@ cluster04 tachyon] $ . /bin/tachyontfs touch /mydir/my. txt 
FileAlreadyExistException ( message ;/ mydir/ my. txt) 

[ harli@ cluster04 tachyon] $ . /bin/tachyontfs ls /mydir 

0. 00 B 04 -18 -2015 04:09:31:670 In Memory / mydir/my. txt 


[ harli@ cluster04 tachyon] $ . /bin/tachyontfs rm /mydir/my. txt 
/ mydir/my. txt has been removed 


[ harli@ cluster04 tachyon] $ . /bin/tachyontfsrmr /mydir2 


/mydir2 has been removed 


[ harli@ cluste104 tachyon] $ . /bin/tachyontfsrmr / 
[ harli@ cluste104 tachyon] $ . /bin/tachyontfs ls / 


0. 00 B 04 —18 -2015 03: 46: 41: 184 / conf 
0. 00 B 04 -18 -2015 04: 08: 01: 730 / mydir 
0. 00 B 04 -18 - 2015 04: 14: 49: 422 / mydirl 


7. location 


查看 文件 所 在 位 置 ， 当 前 /conf/tachyon - env. sh 文件 位 于 cluster04 节点 。 


[ harli@ cluster04 tachyon | $ . /bin/tachyontfs location /conf 
Exception in thread " main" java. lang. NullPointerException 
at tachyon. client. TachyonFile. getNumberOfBlocks ( TachyonFile. java :222 ) 
at tachyon. client. TachyonFile. getLocationHosts ( TachyonFile. java :203 ) 
at tachyon. command. TFsShell. location( TFsShell. java:314 ) 
at tachyon. command. TFsShell. run( TFsShell. java:610 ) 
at tachyon. command. TFsShell. main( TFsShell. java ;58) 
[ harli@ cluster04 tachyon] $ . /bin/tachyontfs location /conf/tachyon — env. sh 
/ conf/tachyon — env. sh with file id 3 is on nodes: 


cluster04 
8. report 
report 会 报告 指定 路 径 的 具体 信息 ， 包 含 对 应 的 文件 ID 标识 的 值 以 及 已 经 上 报 的 信 


息 等 。 


[ harli@ cluster04 tachyon | $ . /bin/tachyontfs report /conf/tachyon — env. sh 


9. 
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/ conf/tachyon - env. sh with file id 3 has reported been report lost. 
[ harli@ cluster04 tachyon] $ . /bin/tachyontfs report /conf 

/ conf with file id 2 has reported been report lost. 
[ harli@ cluster04 tachyon] $ . /bin/tachyontfs report /mydir2 


/mydir2 with file id —1 has reported been report lost. 


request 


向 指定 文件 发 出 请 求 。 


[ harli@ cluster04 tachyon | $ . /bin/tachyontfs request /conf 8 
Dependency with ID 8 has been requested. 
[ harli@ cluster04 tachyon | $ . /bin/tachyontfs request /conf 7 
Dependency with ID 7 has been requested. 


10. 


pin 和 unpin 


对 应 常 驻 内 存 和 撤销 常 驻 内 存 。 


[ harli@ cluster04 tachyon | $ . /bin/tachyontfs pin /conf/log4j. properties 


pin 执行 前 或 unpin 执行 后 的 Web Interface 界面 ， 如 图 5. 22 所 示 。 


Browsing HDFS 


* 


Filé /conf/log4j. properties was successfully pinned. 
[ harli@ cluster04 tachyon] $ . /bin/tachyontfs unpin /conf/log4j. properties 


File /conf/log4j. properties was successfully unpinned. 
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pin 执行 后 的 Web Interface 界面 ， 如 图 5.23 所 示 。 
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图 5.22 Tachyon 文件 系统 pin 或 unpin 执行 前 的 界 
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1l. free 
释放 内 存 ， 即 文件 不 再 放 在 内 存 中 。 


[ harli@ cluster04 tachyon | $ . /bin/tachyontfs free /conf/log4j. properties 
/ conf/log4j. properties was successfully freed from memory. 
执行 该 free 命令 后 ， 查 看 Web Interface 界面 ， 在 In - Memory 列 可 以 看 到 文件 已 经 不 在 
内 存 中 ， 如 图 5.24 所 示 。 
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IN 同步 底层 文件 系统 的 案例 与 解析 


进行 同步 底层 文件 系统 的 案例 实践 时 ， 要 求 已 经 部 署 了 Tachyon 集群 ， 并 且 配 置 了 容错 
处 理 ， 即 启动 了 ZooKeeper 对 Master 进行 管理 ， 启 动 了 HDFS， 同 时 将 HDFS 配置 为 Tachyon 
的 底层 文件 系统 。 

Tachyon 启动 后 并 不 能 识别 已 经 存储 在 底层 文件 系统 中 的 数据 ， 可 以 使 用 Tachyon 的 
shell 命令 loadufs 来 同步 底层 文件 系统 和 本 地 文件 系统 。 命 令 格式 如 下 : 


. /bin/tachyonloadufs [ Tachyon_PATH] [ UNDERLYING_FILESYSTEM_PATH ] [ Optional EXCLUDE_ 
PATHS] 


其 中 : 

1) Tachyon PATH; 指定 要 同步 的 Tachyon 路 径 。 

2) UNDERLYING, FILESYSTEM PATH: 指定 底层 文件 需要 要 同步 的 路 径 。 
3) EXCLUDE PATHS; 可 选 参数 ， 排 除 同步 路 径 下 不 需要 同步 的 路 径 。 
需要 准备 的 文件 如 下 。 


[ harli@ cluster06 tachyon] $ hdfs dfs — mkdir /test 

[ harli@ cluster06 tachyon | $ hdfs dfs — put . /bin /test 

[ harli@ cluster06 tachyon | $ hdfs dfs — put . /logs/ /test 
[ harli@ cluster06 tachyon | $ hdfs dfs — put . /conf /test 
[ harli@ cluster06 tachyon | $ hdfs dfs —Is /test 


Found 3 items 
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drwxr-xr-x  — harli supergroup 0 2015 -04 -18 09:39 /test/bin 

drwxr-xr-x  — harli supergroup 0 2015 -04 -18 09:40 /test/conf 

drwxr-xr-x  — harli supergroup 0 2015 -04 -18 09:40 /test/logs 

[ harli@ clustei06 tachyon | $ hdfs dfs — put . / conf /test/bin S 


[ harli@ cluster06 tachyon] $ hdfs dfs — put . /logs /test/bin 
[ harli@ clustei06 tachyon | $ hdfs dfs — ls /test/bin 


Found 7 items 


drwxr-xr-x  — harli supergroup 0 2015 -04 -18 09:55 /test/bin/conf 

drwxr-xr-x  — harli supergroup 0 2015 -04 -18 09:56 /test/bin/logs 
-rw-r--r-- lharli supergroup 7084 2015 -04 — 18 09: 39 /test/bin/tachyon 
-rw-r--r-- lharli supergroup 4374 2015 -04 - 18 09: 39 /test/bin/tachyon - mount. sh 
-rw-r--r-- lharli supergroup 5161 2015 -04 — 18 09: 39 /test/bin/tachyon — start. sh 
-rw-r--r-- (hari supergroup 1102 2015 -04 — 18 09: 39 /test/bin/tachyon — stop. sh 
-rw-r--r-- lharli supergroup 715 2015 —04 — 18 09:39 /test/bin/tachyon — workers. sh 


其 中 ， 目 录 结 构 为 : 


[ harli@ cluster06 tachyon] $ hdfs dfs -ls -d -R /test/bin/ * 


drwxr-xr-x  — harli supergroup 0 2015 -04 -18 09:55 /test/bin/conf 

drwxr-xr-x  — harli supergroup 0 2015 -04 -18 09:56 /test/bin/logs 

-rw-r--r-- (hari supergroup 7084 2015 —04 — 18 09: 39 /test/bin/tachyon 
-rw-r--r-- lharli supergroup 4374 2015 — 04 - 18 09: 39 /test/bin/tachyon — 
mount. sh 

-rw-r--r--__ lharli supergroup 5161 2015 -04 - 18 09: 39 /test/bin/tachyon - start. sh 
-rw-r--r--__ lharli supergroup 1102 2015 —04 - 18 09: 39 /test/bin/tachyon — stop. sh 
-rw-r--r--  dhai supergroup 715 2015 —04 — 18 09: 39 /test/bin/tachyon — work- 
ers. sh 


同步 HDFS 底层 文件 系统 的 案例 与 解析 


在 使 用 EXCLUDE_PATHS 选项 时 ， 如 果 包 含 多 项 排除 路 径 ， 需 要 用 双 引 号 包含 ， 和 否则 
会 将 分 号 视 作 命令 分 隔 符 ， 继 续 执行 分 号 后 的 命令 ， 如 下 所 示 : 


[ harli@ cluster04 tachyon] $ — ./bin/tachyonloadufs tachyon ;//cluster06 ; 19998/ hdfs ;//cluster04 ; 
9000/test logs ; conf 

bash: conf; command not found 

[ harli@ cluster04 tachyon] $ . /bin/tachyontfs ls / 

0.00 B 04 -18 —2015 09: 48: 21: 953 / bin 

0.00 B 04 -18 -2015 09: 48: 21: 982 / conf 


这 里 EXCLUDE PATHS 选项 包含 logs;conf, 但 由 于 没有 用 双 引 号 包含 ， 因 此 将 分 号 看 
成 了 命令 分 隔 符 ， 在 继续 执行 conf 命令 时 ， 会 报错 。 

对 应 的 ， 只 会 排除 EXCLUDE PATH 选项 中 的 logs 目录 ， 其 他 非 EXCLODE PATHS 选项 
中 的 目录 都 已 经 同步 成 功 。 

同步 HDFS 底层 文件 系统 后 ， 底 层 文件 系统 上 的 同步 路 径 下 有 文件 更 新 时 ， 并 不 会 自动 
地 同步 HDFS 底层 文件 系统 。 


另外 
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EXCLUDE PATHS 选项 是 指定 的 相对 路 径 ， 不 会 递归 地 去 排除 ， 如 : 


[ harli@ cluster04 tachyon] $ . /bin/tachyon tfs rmr /test 

/test has been removed 

[ harli@ cluster04 tachyon] $ ./bin/tachyon tfs mkdir /test 

Successfully created directory /test 

[ harli 9 cluster04 tachyon] $ ./bin/tachyon loadufs tachyon ;//cluster06: 19998/ hdfs ;//cluster04 : 
000/test " logs ; conf" 

[ harli@ cluster04 tachyon] $ . /bin/tachyon tfs ls /test 

[ harli@ cluster04 tachyon | $ . /bin/tachyon loadufs tachyon;//cluster06: 19998/test hdfs://cluster04 
: 9000/test "logs; conf" 

[ harli@ cluste104 tachyon] $ . /bin/tachyon tfs ls /test 


0. 00 B 04 -18 -2015 11: 06: 04: 994 /test/ bin 

[ harli@ cluste104 tachyon] $ . /bin/tachyon tfs Is /test/bin 

0. 00 B 04 -18 -2015 11:06: 05: 004 /test/ bin/conf 
0. 00 B 04 -18 -2015 11:06: 05: 038 /test/ bin/logs 


6.92 KB 04-18 -2015 11:06:05:055 Not In Memory  /test/bin/tachyon 

4374.00 B 04 — 18 - 2015 11:06:05:075 Not In Memory X /test/bin/tachyon — mount. sh 
5.04 KB 04-18 -2015 11:06:05:091 Not In Memory  /test/bin/tachyon - start. sh 
1102.00 B 04 -18 - 2015 11:06:05:108 Not In Memory X /test/bin/tachyon — stop. sh 
715.00 B 04-18 - 2015 11:06:05:126 Not In Memory  /test/bin/tachyon — workers. sh 


将 HDFS 的 /test 目录 同步 到 Tachyon 的 /test 目录 下 ， 并 且 排 除 HDFS 下 的 /test/logs 和 / 


test/conf 


目录 ， 但 是 ，HDFS 下 的 /test/bin 目录 下 的 conf 和 logs 并 不 会 排除 。 


注意 : 同步 时 ， 会 将 指定 的 底层 文件 系统 路 径 下 的 数据 同步 上 去 ， 不 会 把 test 目录 也 同步 上 去 。 
另外 ， 执 行 命令 时 ，Tachyon 路 径 必须 指定 完整 路 径 ， 不 能 省 略 前 缀 tachyon ;//master: 


19998 ， 和 否则 将 包括 无 效 的 Tachyon URI 错误 : 


[ harli@ cluster04 tachyon | $ . /bin/tachyon loadufs / hdfs;//cluster04: 9000/test logs ;conf 
java. io. IOException: Invalid Tachyon URI:/. Use tachyon://host:port/ ,tachyon — ft://host: port/ 

at tachyon. client. TachyonFS. get( TachyonFS. java 89) 

at tachyon. util. UfsUtils. loadUfs ( UfsUtils. java ;71) 

at tachyon. util. UfsUtils. main( UfsUtils. java :185) 
Usage:java — cp target/tachyon —0. 6. 3 — jar — with — dependencies. jar tachyon. util. UfsUtils < Tachyon- 
Path > < UfsPath > [ < Optional ExcludePathPrefix , separated by ; > | 
Example:java — cp target/tachyon - 0. 6. 3 — jar — with — dependencies. jar tachyon. util. UfsUtils tachy- 
on://127. 0. 0. 1: 19998/a hdfs://localhost :9000/b c 
Example: java — cp target/tachyon — 0. 6. 3 — jar — with — dependencies. jar tachyon. util. UfsUtils tachy- 
on ;//127. 0. 0. 1: 19998/a file:///b c 
Example:java — cp target/tachyon — 0. 6. 3 — jar — with — dependencies. jar tachyon. util. UfsUtils tachy- 
on;//127. 0. 0. 1: 19998/a /b c 
In the TFS, all files under local FS /b will be registered under /a, except for those with prefix c 


bash: conf: command not found 


同步 本 地 底层 文件 系统 的 案例 与 解析 


本 地 底层 文件 系统 的 同步 和 HDFS 底层 文件 系统 同步 类 似 。 如 : 


EL Tachyon 实践 案例 与 解析 


[ harli@ cluster04 tachyon | $ ./bin/tachyon loadufs tachyon://cluster06: 19998/test_1 /home/harli/ 


cluster/tachyon/conf 

[ harli@ cluster04 tachyon] $ ./bin/tachyon tfs Isr /test_1 

3525. 00 B 04 - 18 — 2015 10: 14: 28:343 Not In Memory /test l/tachyon — env. sh 

3042.00 B 04 - 18 - 2015 10: 14: 28: 357 Not In Memory /test _ 1/tachyon - glusterfs C» 


— env. sh. template 
83.00 B 04-18 -2015 10:14:28: 367 Not In Memory /test l/slaves 

3356.00 B 04 - 18 — 2015 10:14:28:386 Not In Memory /test l/tachyon — env. sh. template 
114.00 B 04-18 -2015 10:14:28: 393 Not In Memory /test l/workers 

1971.00 B 04 — 18 - 2015 10: 14:28: 400 Not In Memory /test 1/log4j. properties 


EXCLUDE PATHS 选项 用 法 也 是 一 样 的 ， 比 如 ; 


harli@ cluster04 tachyon 
harli@ cluster04 tachyon 


[ | $ ep -r conf test_2/ 
[ ]$ 
[ harli@ cluster04 tachyon] $ cp -r bin test 2/ 
[ ]$ 
[ ]$ 


cp -r logs test 2 


harli@ cluster04 tachyon cp -r conf test, 2/bin/ 
harli@ cluster04 tachyon cp -r logs test. 2/bin/ 


构建 本 地 目录 test_2， 然 后 测试 同步 中 EXCLUDE_PATHS 选项 的 作用 : 


[ harli@ cluster04 tachyon] $ ./bin/tachyon loadufs tachyon://cluster06: 19998/test_2 /home/harli/ 
cluster/tachyon/test_2 " logs ; conf" 

[ harli@ cluster04 tachyon] $ . /bin/tachyon tfs ls /test 2 

0.00 B 04 -18 - 2015 11: 14: 52: 567 /test_2/bin 

715.00 B 04-18-2015 11:17:30:138 Not In Memory  /test_2/tachyon - workers. sh 
6.92 KB 04-18 -2015 11:17:30:146 Not In Memory  /test 2/tachyon 

1102.00 B 04 — 18 - 2015 11:17:30: 150 Not In Memory X /test 2/tachyon - stop. sh 
5.04 KB 04-18 -2015 11:17:30: 155. Not In Memory — /test. 2/tachyon - start. sh 
4374.00 B 04 — 18 -2015 11:17:30: 159. Not In Memory X /test 2/tachyon - mount. sh 

[ harli@ cluster04 tachyon] $ . /bin/tachyon tfs ls /test 2 

0. 00 B 04 -18 - 2015 11: 14: 52: 567 /test_2/bin 

715.00 B 04-18-2015 11:17:30:138 Not In Memory — /test. 2/tachyon - workers. sh 
6.92 KB 04-18 -2015 11:17:30:146 Not In Memory  /test 2/tachyon 

1102.00 B 04 — 18 -2015 11:17:30: 150 Not In Memory X /test 2/tachyon - stop. sh 
5.04 KB 04-18 -2015 11:17:30: 155. Not In Memory — /test. 2/tachyon - start. sh 
4374.00 B 04 — 18 -2015 11:17:30: 159. Not In Memory — /test 2/tachyon — mount. sh 


可 以 看 到 ， 效 果 和 HDFS 底层 文件 系统 的 同步 是 一 样 的 。 
本 地 文件 必须 使 用 “fe:///” 或 “/” 作 为 前 级 ， 不 能 使 用 本 地 的 相对 路 径 : 


[ harli@ cluster04 tachyon | $ . /bin/tachyon loadufs tachyon ;//cluster06: 19998/test_l . /conf 

java. lang. NullPointerException 

at tachyon. util. UfsUtils. loadUnderFs ( UfsUtils. java :102 ) 

at tachyon. util. UfsUtils. loadUfs ( UfsUtils. java ;75) 

at tachyon. util. UfsUtils. main ( UfsUtils. java : 185 ) 

Usage:java — cp target/tachyon — 0. 6. 3 — jar — with — dependencies. jar tachyon. util. UfsUtils < Tachyon- 
Path > < UfsPath > [ < Optional ExcludePathPrefix , separated by ; > ] 

Example:java — cp target/tachyon - 0. 6. 3 — jar - with — dependencies. jar tachyon. util. UfsUtils tachy- 
on ;//127. 0. 0. 1: 19998/a hdfs;//localhost :9000/b c 
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Example:java - cp target/tachyon - 0. 6. 3 — jar - with — dependencies. jar tachyon. util. UfsUtils tachy- 
on://127. 0. 0. 1: 19998/a file:///b c 


Example:java — cp target/tachyon - 0. 6. 3 — jar - with — dependencies. jar tachyon. util. UfsUtils tachy- 
on;//127. 0. 0. 1: 19998/a /b c 
In the TFS, all files under local FS /b will be registered under /a , except for those with prefix c 


基于 Tachyon 运行 的 案例 与 解析 


5S) | 基于 Tachyon 运行 Spark 的 案例 与 解析 


基于 Tachyon 3247 Spark 的 案例 实践 时 ， 要 求 已 经 部 署 了 Tachyon 集群 ， 并 且 配 置 了 容错 处 
理 ， 即 启动 了 ZooKeeper 对 Master 进行 管理 ， 启 动 了 HDFS， 同 时 将 HDFS 配置 为 Tachyon 的 底层 
文件 系统 。 

一 、 准 备 在 Spark 上 使 用 的 文件 


[ harli@ cluster04 tachyon] $ . /bin/tachyon tfs copyFromLocal . /conf/tachyon — env. sh / 
Copied . /conf/tachyon — env. sh to / 

[ harli@ cluster04 tachyon | $ . / bin/tachyon tfs ls / 

3525.00 B 04 - 19 - 2015 05:24: 17:689 In Memory /tachyon - env. sh 

[ harli@ cluster04 tachyon | $ 


二 、 基 于 Tachyon 的 Spark 实践 案例 及 解析 
1. 修改 配置 Spark -env. sh， 添 加 以 下 内 容 : 


export Spark_CLASSPATH =. . /tachyon/client/target/tachyon — client — 0. 6. 3 — jar — with — dependen- 
cies. jar; $ Spark. CLASSPATH 


注意 : 在 重新 编译 的 Spark 1.3.0 (不 低 于 1.0.0) 版 本 中 ， 没 有 设置 也 可 以 成 功 访问 Tachyon, 
2. 增加 配置 文件 core - site. xml 


< configuration > 

< property > 

« name > fs. tachyon. impl < /name > 

« value > tachyon. hadoop. TFS « /value > 
« / property > 

« / configuration > 


注意 : 在 重新 编译 的 spark 1.3.0 版 本 (基于 Hadoop 2. x MA) 中 ,没有 设置 也 可 以 成 功 访问 
Tachyon, 

3. 启动 . / bin/spark - shell 

进入 spark 部 署 目 录 ， 输 入 : 


[ harli@ cluster04 tachyon] $ . /bin/spark - shell 
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去 除 过 多 的 日 志 信息 : 


scala > import org. apache. log4j. | Level , Logger} 
import org. apache. log4j. | Level , Logger} 


e 


scala > Logger. getLogger( " org. apache. spark" ). setLevel( Level. WARN) 


4. 使 用 Tachyon 文件 
启动 . /bin/spark - shell， 在 交互 式 界面 输入 : 


scala> val s 2 sc. textFile( " tachyon ;//cluster04: 19998/tachyon — env. sh" ) 

s:0rg. apache. spark. rdd. RDD [ String] = tachyon;//cluster04 : 19998/tachyon — env. sh MapPartition- 
sRDD[1] at textFile at < console > : 22 

scala» s. count 

15/04/19 08: 15: IOINFO : initialize ( tachyon: //cluster04: 19998/tachyon — env. sh, Configuration: core — 
default. xml, core — site. xml, mapred — default. xml, mapred — site. xml, yarn — default. xml, yarn 一 
site. xml, hdfs — default. xml, hdfs — site. xml). Connecting to Tachyon; tachyon;//cluster04: 19998/tach- 
yon — env. sh 

15/04/19 08: 15: IOWARN :tachyon. home is not set. Using /mnt/tachyon. default home as the default 
value. 

15/04/19 08: 15: 10 INFO: Tachyon client (version 0.6. 3) is trying to connect master @ cluster04/ 
192. 168. 242. 135: 19998 

15/04/19 08: 15: 10 INFO: User registered at the master cluster04/192. 168. 242. 135 : 19998 got 
Userld 20 

15/04/19 08: 15: 10 INFO: tachyon://cluster04 ; 19998 tachyon://cluster04 ; 19998hdfs ://cluster04 
: 9000 

15/04/19 08: 15: 10 INFO: getFileStatus ( tachyon ;// cluster04 : 19998/tachyon — env. sh) : HDFS Path; 
hdfs ://cluster04 :9000/tachyon — env. sh TPath : tachyon ;// cluster04 ;19998/tachyon - env. sh 

15/04/19 08: 15: 10 INFOFileInputFormat : Total input paths to process :1 

15/04/19 08: 15: 10 INFO deprecation; mapred. tip. id is deprecated. Instead, use mapreduce. task. id 
15/04/19 08: 15: 10 INFO deprecation ; mapred. task. id is deprecated. Instead, use mapreduce. task. 
attempt. id 
15/04/19 08: 15: 10 INFO deprecation ; mapred. task. is. map is deprecated. Instead, use mapreduce. 
task. ismap 
15/04/19 08: 15: 10 INFO deprecation : mapred. task. partition is deprecated. Instead , use mapreduce. 
task. partition 
15/04/19 08: 15: 10 INFO deprecation; mapred. job. id is deprecated. Instead , use mapreduce. job. id 
15/04/19 08: 15: 10 INFO :open( tachyon ;//cluster04: 19998/tachyon - env. sh,65536) 

15/04/19 08: 15: 10 INFO; Trying to get local worker host ; cluster04 

15/04/19 08: 15: 10 INFO Connecting local worker €? cluster04/192. 168. 242. 135: 20998 

resl : Long = 86 


5. 将 文件 重新 保存 到 Tachyon 上 


scala» s. saveAsTextFile( " tachyon://cluster04: 19998/savel" ) 
15/04/19 08: 15: 39 INFO: getWorkingDirectory :/ 
15/04/19 08: 15: 39 INFO: getWorkingDirectory :/ 
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15/04/19 08: 15: 39 INFO :getFileStatus( tachyon ;//cluster04: 19998/savel ) : HDFS Path :hdfs ;//clus- 
te104: 9000/savel TPath : tachyon :// cluster04: 19998/savel 

15/04/19 08: 15: 40 INFO:File does not exist; tachyon ;// cluster04: 19998/savel 

15/04/19 08: 15: 40 INFO :getWorkingDirectory :/ 

15/04/19 08: 15: 40 INFO : mkdirs( tachyon ;//cluster04: 19998/savel/ temporary/O ,rwxrwxrwx ) 
15/04/19 08: 15: 41 INFO :open( tachyon ;//cluster04: 19998/tachyon - env. sh,65536) 

15/04/19 08: 15: 41 INFO :getWorkingDirectory :/ 

15/04/19 08: 15: 41 INFO: create( tachyon ;//cluster04: 19998/savel/ temporary/0/ temporary/attempt 
.201504190815. 0001. m. 000000 _ 1/part - 00000, rw - r - - r - — , true, 65536,1, 536870912, 
org. apache. hadoop. mapred. Reporter $ 1? 40025295) 

15/04/19 08: 15: 41INFO : Folder /mnt/ramdisk/tachyonworker/users/20 was created! 

15/04/19 08: 15: A1INFO ;/mnt/ramdisk/tachyonworker/users/20/23622320128 was created! 

15/04/19 08: 15: 41 INFO: getFileStatus ( tachyon ;//cluster04: 19998/savel/ temporary/0/ temporary/ 
attempt, 201504190815. 0001. m, 000000 1) : HDFS Path: hdfs ://cluster04: 9000/savel/ temporary/0/ . 
temporary/attempt, 201504190815. 0001. m, 000000. 1 TPath : tachyon://cluster04: 19998/savel/ tem- 
porary/0/ temporary/attempt 201504190815. 0001. m, 000000 1 

15/04/19 08: 15: 41 INFO: getFileStatus ( tachyon ;//cluster04: 19998/savel/ temporary/0/ temporary/ 
attempt, 201504190815. 0001. m, 000000. 1) : HDFS Path: hdfs ://cluster04: 9000/savel/ temporary/0/ . 
temporary/attempt, 201504190815. 0001. m, 000000. 1 TPath: tachyon ://cluster04: 19998/savel/ tem- 
porary/0/ temporary/attempt 201504190815. 0001. m, 000000 1 

15/04/19 08: 15: 41 INFO: getFileStatus ( tachyon://cluster04 : 19998/savel/ temporary/0/task _ 
201504190815. 0001. m. 000000): HDFS Path: hdfs://cluster04 : 9000/savel/_ temporary/0/task _ 
201504190815 _ 0001 _ m _ 000000 TPath: tachyon://cluster04 : 19998/savel/_ temporary/0/task _ 
201504190815_0001_m_000000 

15/04/19 08: 15: 41 INFO; File does not exist; tachyon;//cluster04: 19998/savel/_temporary/0/task _ 
201504190815_0001_m_000000 

15/04/19 08: 15: 41 INFO: rename ( tachyon://cluster04 : 19998/savel/ temporary/0/ temporary/at- 
tempt_ 201504190815 | 0001 _m _ 000000 _ 1, tachyon;//cluster04 : 19998/savel/_ temporary/0/ task _ 
201504190815_0001_m_000000 ) 

15/04/19 08: 15: 41 INFOFileOutputCommitter ; Saved output of task attempt_201504190815 _0001_m_ 
000000. 1 to tachyon://cluster04: 19998/savel/_temporary/0/task_201504190815_0001_m_000000 
15/04/19 08: 15: 41 INFO: listStatus ( tachyon ;//cluster04: 19998/savel/ temporary/O ) : HDFS Path: 
hdfs ://cluster04: 9000/savel/_temporary/0 

15/04/19 08: 15: 41 INFO: getFileStatus ( tachyon ;//cluster04: 19998/savel ) : HDFS Path ; hdfs ;//clus- 
te104 :9000/savel TPath : tachyon :// cluster04: 19998/savel 

15/04/19 08: 15: 41 INFO: getFileStatus ( tachyon ;//cluster04: 19998/savel ) : HDFS Path; hdfs ;//clus- 
te104: 9000/savel TPath : tachyon ;// cluster04: 19998/savel 

15/04/19 08: 15: 41 INFO listStatus( tachyon ;//cluster04: 19998/savel/ temporary/0/task, 201504190815 
0001. m 000000) : HDFS Path; hdfs://cluster04: 9000/savel/ temporary/O/task 201504190815. 0001. m 
000000 

15/04/19 08: 15: 41 INFO :getFileStatus( tachyon ;//cluster04: 19998/savel/part — 00000) : HDFS Path; 
hdfs ://cluster04: 9000/savel/part — 00000 TPath : tachyon ;// cluster04: 19998/savel/part — 00000 
15/04/19 08: 15:41 INFO:File does not exist: tachyon ;// cluster04: 19998/savel/part — 00000 
15/04/19 08 : 15 : 41 INFO: rename ( tachyon;//cluster04 : 19998/savel/_ temporary/O/task _ 
201504190815. 0001. m. 000000/ part — 00000 , tachyon ://cluster04: 19998/savel/part — 00000 ) 
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15/04/19 08: 15: 41 INFO :delete( tachyon ;//cluster04: 19998/savel/ temporary ,true ) 
15/04/19 08: 15: 41 INFO :create( tachyon ;//cluster04: 19998/savel/ SUCCESS, rw - r -- r -- ,true, 


65536,1,536870912 , null) 


查看 Tachyon 的 Web Interface (http: //cluster04: 19999) 界面 ， 如 图 5.25 所 示 。 S 


Tachyon Spark Master at sparky/clust... 3X |... Namenode information 


- clusterü4 


In Memory Files 


Block 
File Path Size Size 
my tachyon-env.sh/ SUCCESS 0.00 B 512.00 
MB 
my lachyon-env.sh/part-00000 352500 512.00 
B MB 
save1! SUCCESS 0.00 B 512.00 
MB 
save1/part-00000 3525.00 512.00 
B MB 


Pin 


NO 


NO 


NO 


NO 


Creation Time 


04-19-2015 
05:50:00:411 


04-19-2015 
05:49:59:766 


04-19-2015 
08:15:41:463 


04-19-2015 
08:15:41:081 


图 5.25 保存 文件 到 Tachyon WFR Sa BU TR 


Modification Time 


04-19-2015 
05:50:00:456 


04-19-2015 
05:50:00:255 


04-19-2015 
08:15:41:510 


04-19-2015 
08:15:41:401 


可 以 看 到 ， 文 件 已 经 成 功 保存 到 Tachyon 文件 系统 ， 目 录 为 保存 时 的 参数 savel 。 


6. 对 RDD 进行 缓存 


缓存 RDD 时 ， 对 应 的 API 没有 指定 Tachyon 的 文件 路 径 ， 这 时 候 需 要 提供 配置 参数 ， 
这 里 提供 了 spark. tachyonStore. url 和 spark. tachyonStore. baseDir， 通 过 这 两 个 配置 信息 ， 可 以 


确定 RDD 缓存 在 Tachyon 文件 系统 上 的 路 径 。 
修改 配置 文件 spark - default. conf， 添 加 以 下 内 容 : 


spark. tachyonStore. url tachyon ;//cluster04: 19998 
spark. tachyonStore. baseDir /spark 


spark. tachyonStore. url 是 Spark 连接 Tachyon 用 的 ， 如 果 没 有 设置 ， 会 使 用 默认 URL 
(localhost/127. 0. 0. 1:19998) 去 连接 ， 导 致 连接 失败 ， 比 如 触发 缓存 后 的 错误 信息 如 下 : 


scala» t. count 


15/04/19 08: 32: 45 INFOFileInputFormat ; Total input paths to process: 1 
15/04/19 08: 33: 00 INFO: Tachyon client (version 0. 6. 3) is trying to connect master @ localhost/ 


127. 0. 0. 1: 19998 

15/04/19 08 : 33: 10 ERROR: Failed to connect (0) 
java. net. ConnectException : Connection refused 

15/04/19 08: 33: 10 INFO: Tachyon client ( version 0. 6. 3) 
127. 0. 0. 1:19998 

15/04/19 08 : 33: 10 ERROR: Failed to connect (1) 
java. net. ConnectException : Connection refused 

15/04/19 08: 33: 10 INFO: Tachyon client ( version 0. 6. 3) 
127. 0. 0. 1: 19998 


to master localhost/127. 0. 0. 1. 19998. 


is trying to connect master @ localhost/ 


to master localhost/127. 0. 0. 1. 19998. 


is trying to connect master @ localhost/ 


spark. tachyonStore. baseDir 配置 属性 为 RDD 缓存 在 Tachyon 文件 系统 中 的 根 目 录 ， 如 
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果 没 有 设置 ， 默 认 值 为 tmp_spark_tachyon， 缓 存 后 的 RDD 路 径 如 : /tmp. spark. tachyon/ 
spark — e2fddcOb — 8eb8 - 430d - b0c8 — 0f045f4d23 af//spark — tachyon - 20150419083901 - 
ccd6/15/rdd 1 0, 


scala > val t 2 sc. textFile( " file;///home/harli/cluster/tachyon/conf/log4j. properties" ) 

t: org. apache. spark. rdd. RDD [ String ] = file;///home/harli/cluster/tachyon/conf/log4j. properties 
MapPartitionsRDD[ 5] at textFile at < console > :22 

scala > import org. apache. spark. storage. StorageLevel 

import org. apache. spark. storage. StorageLevel 

scala» t. persist( StorageLevel. OFF HEAP) 

res5 :t. type = file;///home/harli/cluster/tachyon/conf/log4j. properties MapPartitionsRDD [5 ] at text- 
File at < console > :22 

scala > t. count 

15/04/19 08: 16: 47 INFOFileInputFormat ; Total input paths to process :1 

15/04/19 08: 16: 47 INFO: Tachyon client (version 0.6. 3) is trying to connect master @ cluster04/ 
192. 168. 242. 135: 19998 

15/04/19 08: 16: 47 INFO: User registered at the master cluster04/192. 168. 242. 135 : 19998 got 
Userld 22 

15/04/19 08: 16: 47 INFO : Trying to get local worker host : cluster04 

15/04/19 08: 16: 47 INFO Connecting local worker €? cluster04/192. 168. 242. 135: 29998 

15/04/19 08: 16: 47INFO: Folder /mnt/ramdisk/tachyonworker/users/22 was created! 

15/04/19 08: 16: 47INFO :/mnt/ramdisk/tachyonworker/users/22/31138512896 was created! 

res6 ; Long =41 


首先 从 本 地 加 载 文件 log4j. properties, TJ£& RDD 实例 t; 

执行 导入 语句 import org. apache. spark. storage. StorageLevel 后 ， 可 以 使 用 存储 级 别 的 定 
义 。 然 后 使 用 StorageLevel. OFF. HEAP 存储 级 别 ， 将 t 缓存 到 Tachyon 中 ， 最 后 通过 t count 
方法 ， 触 发 缓存 。 

AF Tachyon 的 Web Interface 界面 ( http://cluster04: 19999) 的 In Memory Files 页 面 ， 
如 图 5. 26 所 示 。 

可 以 看 到 ，RDD 已 经 成 功 缓存 到 Tachyon 文件 系统 中 。 其 中 ， 绥 存 路 径 /spark/ 部 分 ， 
是 配置 参数 中 设置 的 park. tachyonStore. baseDir 值 ， 可 以 是 以 逗号 分 割 的 多 个 目录 路 径 。 当 
该 spark - shell 结束 时 ，RDD 会 被 自动 清理 。 

7. Master 容错 下 的 多 Master 访问 

当 Tachyon 使 用 ZooKeeper 处 理 Master 容错 时 ， 可 以 通过 任意 一 个 Master 来 访问 Tachyon 
文件 系统 。 

首先 需要 添加 ZooKeeper 相关 的 配置 属性 ， 在 conf/spark - env. sh 中 添加 : 


Export Spark_JAVA_OPTS =" 
— Dtachyon. zookeeper. address = cluster05 :2181 


— Dtachyon. usezookeeper = true 


$ Spark JAVA. OPTS" 
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Tachyon Spark Master at spark chust, Namenode information 


In Memory Files 


Block 
File Path Size Size Pin Creation Time Modification Time 
my tachyon-env.sh/ SUCCESS 0.00 B 512.00 NO 04-19-2015 04-19-2015 
MB 05:50:00:411 05:50:00:456 
my tachyon-env.sh/part-00000 3525.00 512.00 NO 04-19-2015 04-19-2015 
B MB 05:49:59:766 05:50:00:255 
save1/ SUCCESS 0.00 B 512.00 NO 04-19-2015 04-19-2015 
MB 08:15:41:463 08:15:41:510 
savel/part-00000 3525.00 512.00 NO 04-19-2015 04-19-2015 
B MB 08:15:41:081 08:15:41:401 
spark'spark-241cda62-5581-4188-a49d-7ece0c253317//spark-tachyon- 2057.00 512.00 NO 04-19-2015 04-19-2015 
20150419081647-e5a5/19/rdd 5 0 B MB 08:16:47:686 08:16:47:703 
tachyon-env.sh 3525.00 512.00 NO 04-19-2015 04-19-2015 
B MB 05:24:17:689 05:24:21:672 
View Settings 


图 5.26  StorageLevel. OFF. HEAP 存储 级 别 缓存 后 的 界面 


这 种 设置 方式 在 运行 时 会 出 现 以 下 警告 信息 : 


Spark_JAVA_OPTS was detected (set tó 
— Dtachyon. zookeeper. address = cluster05: 2181 


— Dtachyon. usezookeeper = true 


2 
This is deprecated inSpark 1. 0 +. 
Please instead use; 

— ./spark - submit with conf/spark — defaults. conf to set defaults for an application 

— ./spark — submit with —— driver — java — options to set — X options for a driver 

— spark. executor. extraJavaOptions to set — X options for executors 

—sPARK. DAEMON JAVA, OPTS to set java options for standalone daemons (master or worker) 
15/04/21 00: 23:07 WARNSparkConf; Setting spark. executor. extraJavaOption$ td 

— Dtachyon. zookeeper. address = cluster05: 2181 

— Dtachyon. usezookeeper = true 
' as a work — around. 
15/04/21 00: 23:07 WARNSparkConf; Setting spark. driver. extraJavaOptions td 

— Dtachyon. zookeeper. address = cluster05: 2181 


— Dtachyon. usezookeeper = true 


警告 信息 可 以 忽略 ， 如 果 将 属性 配置 到 conf/spark - defaults. conf 的 话 ， 在 Tachyon 中 是 
不 起 作用 的 。 
另外 在 conf/core - site. xml 文件 中 添加 以 下 信息 : 


< property > 
« name > fs. tachyon - ft. impl < /name > 
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< value > tachyon. hadoop. TFS « /value > 


« / property > 


注意 在 重新 编译 的 Spark 1.3.0 版 本 (基于 Hadoop 2.x 版 本 ) 中 ,没有 设置 也 可 以 成 功 访问 


启动 spark - shell， 用 Active Master 指定 路 径 来 获取 文件 内 容 ， 并 保存 到 Standby Master 
指定 的 路 径 上 。 


scala> val s 2 sc. textFile( " tachyon — ft;//cluste104: 19998/tachyon — env. sh" ) 

15/04/21 01: 16: 25 INFOSparkContext ; Created broadcast 0 from textFile at < console > : 21 

s: org. apache. spark. rdd. RDD [ String] = tachyon - ft;//cluster04 ; 19998/tachyon — env. sh MapParti- 
tionsRDD[ 1 | at textFile at < console > : 21 


scala» s. count 

15/04/21 01: 16: 26INFO: initialize ( tachyon — ft: //cluster04 ; 19998/tachyon — env. sh, Configuration; 

core — default. xml, core — site. xml, mapred — default. xml, mapred - site. xml, yarn — default. xml, yarn 一 

site. xml, hdfs — default. xml, hdfs — site. xml). Connecting to Tachyon : tachyon — ft: //cluster04: 19998/ 

tachyon — env. sh 

15/04/21 01: 16: 26WARN :tachyon. home is not set. Using /mnt/tachyon, default home as the default 

value. 

15/04/21 01:16:26 INFO CuratorFrameworkImpl ; Starting 

15/04/21 01: 16: 26 INFO ZooKeeper; Client environment: zookeeper. version =3. 4. 5 — 1392090, built on 

09/30/2012 17:52 GMT 

15/04/21 01: 16: 26 INFO ZooKeeper: Client environment: host. name = cluster04 

15/04/21 01:16: 26 INFO ZooKeeper: Client environment; java. version = 1. 7. O0. 71 

15/04/21 01:16: 26 INFO ZooKeeper: Client environment; java. vendor = Oracle Corporation 

15/04/21 01:16: 26 INFO ZooKeeper: Client environment; java. home = /lib/jdkl. 7. 0. 71/jre 

15/04/21 01: 16: 26 INFO ZooKeeper: Client environment: java. class. path = :/home/harli/cluster_13/ 

spark/conf;/home/harli/ cluster. 13/spark/lib/spark — assembly - 1. 3. 0 - hadoop2. 6. 0. jar:/home/har- 

li/cluster _ 13/spark/lib/datanucleus — rdbms - 3.2.9. jar:/home/harli/cluster _ 13/spark/lib/ 
13/spark/lib/datanucleus — api - jdo - 


datanucleus — core — 3.2.10. jar;/home/harli/ cluster 
3. 2. 6. jar:;/ home/ harli/cluster/hadoop/ etc/ hadoop 
15/04/21 01: 16: 26 INFO ZooKeeper: Client environment; java. library. path = /usr/java/ packages/ lib/ 
amd64 . /usr/lib64 :/lib64 ./lib :/usr/lib 

15/04/21 01:16:26 INFO ZooKeeper: Client environment; java. io. tmpdir = /tmp 

15/04/21 01:16:26 INFO ZooKeeper: Client environment; java. compiler = < NA > 

15/04/21 01: 16: 26 INFO ZooKeeper: Client environment: os. name = Linux 

15/04/21 01:16: 26 INFO ZooKeeper: Client environment; os. arch = amd64 

15/04/21 01: 16: 26 INFO ZooKeeper: Client environment os. version = 2. 6. 32 — 431. el6. x86. 64 
15/04/21 01:16:26 INFO ZooKeeper: Client environment; user. name = harli 

15/04/21 01: 16: 26 INFO ZooKeeper: Client environment: user. home = /home/harli 

15/04/21 01: 16: 26 INFO ZooKeeper: Client environment: user. dir = /home/harli/cluster. 13/spark 
15/04/21 01 : 16: 26 INFO ZooKeeper; Initiating client connection, connectString = cluster05 : 


2181sessionTimeout = 60000 watcher = org. apache. curator. ConnectionState@ 3 eaf5470 
15/04/21 01: 16: 26 INFOClientCnxn ; Opening socket connection to server cluster05/192. 168. 242. 136: 
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2181. Will not attempt to authenticate using SASL ( unknown error) 

15/04/21 01: 16: 26 INFOClientCnxn: Socket connection established to cluster05/192. 168. 242. 136: 

2181 , initiating session 

15/04/21 01: 16 : 26 INFOClientCnxn; Session establishment complete on server cluster05/ 

192. 168. 242. 136:2181 ,sessionid = Ox14cdab361 fe000f , negotiated timeout = 60000 © 
15/04/21 01:16:26 INFO ConnectionStateManager: State change; CONNECTED 

15/04/21 01:16:26 WARN ConnectionStateManager: There are no ConnectionStateListeners registered. 
15/04/21 01: 16: 27 INFO; Master addresses ; | cluster04 ; 19998 , cluster06 : 19998 | 

15/04/21 01: 16: 27 INFO: Tachyon client ( version 0. 6. 3) is trying to connect master @ cluster04/ 

192. 168. 242. 135: 19998 

15/04/21 01: 16: 27 INFO: User registered at the master cluster04/192. 168. 242. 135 : 19998 got 

Userld 11 

15/04/21 01: 16: 27 INFO :tachyon — ft: //cluster04 : 19998 tachyon — ft: //cluster04: 19998hdfs ://clus- 

te104: 9000 
15/04/21 01: 16: 27 INFO: getFileStatus ( tachyon — ft: //cluster04: 19998/tachyon — env. sh) : HDFS 
Path; hdfs: //cluster04: 9000/tachyon — env. sh TPath; tachyon — ft: //cluste104: 19998/tachyon — env. sh 
15/04/21 01:16: 27 INFOFileInputFormat ; Total input paths to process :1 

15/04/21 01:16: 27 INFOSparkContext :Starting job :count at < console > :24 

15/04/21 01: 16:27 INFODAGScheduler:Got job O (count at < console > :24) with 1 output partitions 
( allowLocal = false ) 
15/04/21 01: 16:27 INFODAGScheduler; Final stage ; Stage O( count at < console > :24) 

15/04/21 01:16: 27 INFODAGScheduler; Parents of final stage; List( ) 

15/04/21 01: 16:27 INFODAGScheduler ; Missing parents ; List( ) 

15/04/21 01: 16:27 INFODAGScheduler; Submitting Stage 0 ( tachyon — ft: //cluster04: 19998/tachyon 
— env. sh MapPartitionsRDD[ 1 ] at textFile at < console > ;21) ,which has no missing parents 

15/04/21 01: 16: 27 INFOSparkContext : Created broadcast 1 from broadcast at DAGScheduler. scala :839 
15/04/21 01: 16:27 INFODAGScheduler:Submitting 1 missing tasks from Stage 0 ( tachyon — ft: //clus- 
ter04 :19998/tachyon — env. sh MapPartitionsRDD[ 1] at textFile at < console > :21) 

15/04/21 01:16: 27 INFOTaskSchedulerImpl ; Adding task set 0.0 with 1 tasks 

15/04/21 01: 16:27 INFOTaskSetManager: Starting task 0.0 in stage 0.0 ( TID 0, localhost, ANY , 1307 
bytes ) 
15/04/21 01:16: 27 INFO Executor; Running task 0.0 in stage 0.0 ( TID 0) 

15/04/21 01:16: 27 INFOHadoopRDD; Input split; tachyon — ft: //cluster04: 19998/tachyon — env. sh:0 
+ 3647 
15/04/21 01:16: 27 INFO deprecation; mapred. tip. id is deprecated. Instead,use mapreduce. task. id 
15/04/21 01 : 16 : 27 INFO deprecation; mapred. task. id is deprecated. Instead, use 
mapreduce. task. attempt. id 

15/04/21 01: 16 : 27 INFO deprecation; mapred. task. is. map is deprecated. Instead, use 


mapreduce. task. ismap 


15/04/21 01: 16: 27 INFO deprecation; mapred. task. partition is deprecated. Instead, use 
mapreduce. task. partition 

15/04/21 01:16: 27 INFO deprecation; mapred. job. id is deprecated. Instead, use mapreduce. job. id 
15/04/21 01: 16:27 INFO :open( tachyon — ft: //cluster04 ; 19998/tachyon — env. sh 65536) 

15/04/21 01:16: 27 INFO : Trying to get local worker host ; cluster04 

15/04/21 01:16: 27 INFO Connecting local worker €? cluster04/192. 168. 242. 135: 29998 
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15/04/21 01:16: 27 INFO Executor; Finished task 0.0 in stage 0.0 (TID 0). 1830 bytes result sent 
to driver 

15/04/21 01:16: 27 INFODAGScheduler:Stage 0 (count at < console > :24) finished in 0. 138 s 
15/04/21 01: 16: 27 INFOTaskSetManager ; Finished task 0.0 in stage 0.0 (TID 0) in 126 ms on local- 
host (1/1) 
15/04/21 01: 16: 27 INFOTaskSchedulerlmpl : Removed TaskSet 0. 0, whose tasks have all completed, 
from pool 
15/04/21 01: 16:27 INFODAGScheduler:Job 0 finished:count at < console > :24 ,took 0. 261197 s 
res0 : Long 2 90 


scala» s. saveAsTextFile( " tachyon — ft: //cluster06: 19998/savel" ) 

15/04/21 01: 16: 46INFO; initialize ( tachyon — ft: //cluster06 : 19998/savel , Configuration; core — de- 
fault. xml, core — site. xml, mapred — default. xml, mapred — site. xml, yarn — default. xml, yarn — site. xml, 
hdfs - default. xml ,hdfs — site. xml). Connecting to Tachyon; tachyon — ft: //cluster06 ;19998/savel 
15/04/21 01: 16: 46 INFO : Master addresses : | cluster04 ; 19998 , cluster06 : 19998 | 

15/04/21 01: 16: 46 INFO: Tachyon client (version 0.6. 3) is trying to connect master @ cluster04/ 
192. 168. 242. 135: 19998 

15/04/21 01: 16: 46 INFO: User registered at the master cluster04/192. 168. 242. 135 : 19998 got 
Userld 12 

15/04/21 01: 16: 46 INFO :tachyon — ft: //cluster06 :19998 tachyon — ft: //cluste106 ; 19998 hdfs: //clus- 
te104 :9000 

15/04/21 01: 16: 46 INFO: getWorkingDirectory :/ 

15/04/21 01: 16: 46 INFO: getWorkingDirectory :/ 

15/04/21 01: 16: 46 INFO: getFileStatus ( tachyon - ft://cluster06 ; 19998/savel ) : HDFS Path: hdfs ;// 
cluster04 :9000/savel TPath : tachyon — ft://cluster06 :19998/savel 

15/04/21 01: 16: 47 INFOContextCleaner: Cleaned broadcast 1 

15/04/21 01: 16: 47 INFO:File does not exist: tachyon — ft://cluster06 :19998/savel 

15/04/21 01:16: 47 INFO: getWorkingDirectory ;/ 

15/04/21 01: 16:47 INFO : mkdirs( tachyon — ft ;//cluster06 :19998/savel/ temporary/O , rwxrwxrwx ) 
15/04/21 01:16: 47 INFOSparkContext : Starting job: saveAsTextFile at < console > :24 

15/04/21 01:16: 47 INFODAGScheduler: Got job 1 (saveAsTextFile at < console > :24) with 1 output 
partitions ( allowLocal = false) 

15/04/21 01: 16:47 INFODAGScheduler; Final stage:Stage 1 ( saveAsTextFile at < console > :24) 
15/04/21 01: 16: 47 INFODAGScheduler:; Parents of final stage ; List( ) 

15/04/21 01: 16: 47 INFODAGScheduler ; Missing parents ; List( ) 

15/04/21 01: 16: 47 INFODAGScheduler; Submitting Stage 1 ( MapPartitionsRDD [2] at saveAsTextFile 
at < console > :24) , which has no missing parents 

15/04/21 01: 16: 47 INFOSparkContext : Created broadcast 2 from broadcast at DAGScheduler. scala :839 
15/04/21 01: 16: 47 INFODAGScheduler; Submitting 1 missing tasks from Stage 1 ( MapPartitionsRDD 
[2] at saveAsTextFile at < console > :24) 

15/04/21 01:16: 47 INFOTaskSchedulerImpl : Adding task set 1.0 with 1 tasks 

15/04/21 01: 16: 47 INFOTaskSetManager: Starting task 0.0 in stage 1.0 (TID 1, localhost, ANY , 1307 
bytes ) 

15/04/21 01: 16:47 INFO Executor; Running task 0.0 in stage 1.0 ( TID 1) 

15/04/21 01: 16: 47 INFOHadoopRDD : Input split; tachyon — ft://cluster04 ; 19998/tachyon — env. sh:0 


第 5 章 Tachyon SCS 6S AEH 


+3647 
15/04/21 01: 16:47 INFO :open( tachyon - ft://cluster04 ; 19998/tachyon — env. sh 65536 ) 
15/04/21 01: 16: 47 INFO :getWorkingDirectory :/ 
15/04/21 01: 16: 47 INFO: create ( tachyon — ft;//cluster06 ; 19998/savel/ temporary/0/. temporary/at- 
tempt. 201504210116. 0001. m, 000000. 1/part — 00000, rw - r - - r - - , true, 65536, 1 , 536870912, © 
org. apache. hadoop. mapred. Reporter $ 1? 3bfc246d) 
15/04/21 01:16: 47 INFO : Trying to get local worker host ; cluster04 
15/04/21 01:16: 47 INFO Connecting local worker €? cluster04/192. 168. 242. 135 :29998 
15/04/21 01: 16: 47INFO : Folder /mnt/ramdisk/tachyonworker/users/12 was created! 
15/04/21 01: 16: 47INFO :/mnt/ramdisk/tachyonworker/users/12/23622320128 was created! 
15/04/21 01: 16: 48 INFO: getFileStatus ( tachyon — ft: //cluster06: 19998/savel/ temporary/0/ tempo- 
rary/ attempt. 201504210116. 0001. m, 000000. 1) : HDFS Path: hdfs: //cluster04: 9000/savel/ tempora- 
ry/0/ temporary/attempt. 201504210116. 0001. m. 000000. 1 TPath :tachyon - ft: //cluster06: 19998/ 
savel/ temporary/O0/ temporary/attempt 201504210116. 0001. m, 000000 1 
15/04/21 01: 16: 48 INFO: getFileStatus ( tachyon - ft: //cluster06: 19998/savel/_temporary/0/_tempo- 
rary/ attempt. 201504210116. 0001. m, 000000. 1) : HDFS Path: hdfs: //cluster04: 9000/savel/ tempora- 
ry/0/ temporary/attempt. 201504210116. 0001. m. 000000. 1 TPath: tachyon — ft: //cluster06: 19998/ 
savel/ temporary/O0/ temporary/attempt 201504210116. 0001. m, 000000 1 
15/04/21 01: 16: 48 INFO: getFileStatus ( tachyon — ft: //cluster06 : 19998/savel/ temporary/0/task _ 
201504210116. 0001. m. 000000): HDFS Path: hdfs : //cluster04 : 9000/savel/_ temporary/0/ task _ 
201504210116. 0001. m, 000000 TPath: tachyon — ft: //cluster06 : 19998/savel/_temporary/0/task _ 
201504210116. 0001. m. 000000 
15/04/21 01: 16: 48 INFO; File does not exist; tachyon — ft: //cluster06 ; 19998/savel/_temporary/0/task 
201504210116. 0001. m. 000000 
15/04/21 01:16: 48 INFO; rename ( tachyon — ft: //cluster06 : 19998/savel/_temporary/0/_temporary/ 
attempt, 201504210116. 0001. m, 000000. 1 , tachyon — ft: //cluster06 : 19998/savel/ temporary/0/task . 
201504210116. 0001. m. 000000) 
15/04/21 01: 16: 48 INFOFileOutputCommitter; Saved output of task attempt. 201504210116. 0001. m. 
000000. 1 to tachyon - ft: //cluster06 :19998/savel/ temporary/0O/task, 201504210116. 0001. m 000000 
15/04/21 01: 16: 48 INFOSparkHadoopWriter:; attempt 201504210116 0001 m. 000000. 1 : Committed 
15/04/21 01: 16: 48 INFO Executor; Finished task 0.0 in stage 1.0 ( TIDI). 2085 bytes result sent 
to driver 
15/04/21 01: 16:48 INFODAGScheduler:Stage 1 ( saveAsTextFile at < console > :24) finished in 0. 490 
s 
15/04/21 01: 16: 48 INFODAGScheduler: Job 1 finished; saveAsTextFile at < console > : 24, took 
0. 612670 s 
15/04/21 01: 16: 48 INFO; listStatus ( tachyon — ft: //clustei06; 19998/savel/ temporary/O ) : HDFS 
Path : hdfs ;// cluster04 :9000/savel/. temporary/O 
15/04/21 01: 16: 48 INFOTaskSetManager ; Finished task 0.0 in stage 1.0 (TID 1) in 499 ms on local- 
host (1/1) 
15/04/21 01: 16: 48 INFOTaskSchedulerImpl : Removed TaskSet 1. 0, whose tasks have all completed, 
from pool 
15/04/21 01: 16: 48 INFO: getFileStatus ( tachyon — ft: //cluster06 ; 19998/savel ) : HDFS Path: hdfs: // 
cluster04: 9000/savel TPath :tachyon — ft: //cluster06 ; 19998/savel 
15/04/21 01: 16: 48 INFO: getFileStatus ( tachyon — ft: //cluster06 ; 19998/savel ) : HDFS Path; hdfs: // 
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cluster04 :9000/savel TPath :tachyon — ft: //cluster06 :19998/savel 

15/04/21 01: 16: 48 INFO: listStatus ( tachyon — ft : //cluster06; 19998/savel/_ temporary/O/task _ 

201504210116 _0001 _ m. 000000): HDFS Path: hdfs : //cluster04 ; 9000/savel/_ temporary/0/task _ 

201504210116 0001. m 000000 

15/04/21 01: 16: 48 INFO: getFileStatus ( tachyon — ft: //cluster06 ; 19998/savel/part — 00000) : HDFS 
Path; hdfs : //cluster04 : 9000/savel/part — 00000 TPath: tachyon — ft: //cluster06 : 19998/savel/part 
— 00000 

15/04/21 01: 16: 48 INFO:File does not exist: tachyon — ft: //cluster06 ; 19998/savel/ part — 00000 
15/04/21 01: 16: 48 INFO; rename ( tachyon — ft ://cluster06; 19998/savel/_ temporary/O/task _ 

201504210116. 0001. m. 000000/ part — 00000 , tachyon — ft: //cluster06 :19998/savel/part — 00000 ) 
15/04/21 01: 16: 48 INFO :delete( tachyon — ft: //cluster06: 19998/savel/ temporary , true ) 

15/04/21 01: 16: 48 INFO: create( tachyon - ft: //cluster06: 19998/savel/ SUCCESS, rw -r--r--, 

true,65536,1,536870912 , null) 


可 以 看 到 ， 这 里 使 用 了 tachyon - ft: //cluster04: 19998 和 tachyon — ft: //cluster06: 19998 
(其 中 作为 Scheme 信息 的 tachyon -ft H, ft 表示 fault tolerant ) ， 访 问 了 Active 和 Standby 的 
Master 指定 路 径 。 

日 志 中 的 “Master addresses: [ cluster04 : 19998 , cluster06: 19998 ]”， 是 根据 Zoo- 


Keeper 相关 
行 具体 操作 


属性 获取 的 当前 Master 列表 信息 。 之 后 会 尝试 连接 到 Active Master， 然 后 进 


o 


保存 结果 可 以 查看 对 应 的 Web Interface 界面 ， 如 图 5.27 所 示 。 


A Restore Session 
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na clustero4 -R u- 


Overview Workers System Configuration Browse File System 


In Memory Files 


File Path Size Block Size Pin Creation Time Modification Time 

YIL_ SUCCESS 0.008 512.00 MB NO 04-21-2015 00:13:24:310 04-21-2015 00:13:24:347 

Y |part-00000 3647.00 B 512.00 MB NO 04-21-2015 00:13:23:806 04-21-2015 00:13:24:217 

isave1/ SUCCESS 0.00B 512.00 MB NO 04-21-2015 01:16:48:203 04-21-2015 01:16:48:235 
3647.00 B 512.00 MB NO 04-21-2015 01:16:47:835 04-21-2015 01:16:48:117 

‘tachyon-env.sh 3647.00 B 512.00 MB NO 04-21-2015 00:02:12:578 04-21-2015 00:02:15:720 

itachyon-save/ SUCCESS 0.00 B 512.00 MB NO 04-21-2015 00:25:31:144 04-21-2015 00:25:31:169 

tachyon-save/part-00000 3647.00 B 512.00 MB NO 04-21-2015 00:25:30:788 04-21-2015 00:25:31:039 

View Settings 

an project developed at the UC Ber 


5.27 Tachyon 文件 系统 的 tachyon -tt 方式 访问 界面 


注意 ， 如 果 使 用 的 是 没有 重新 编译 过 的 Spark 1. 3.0， 比 如 从 官网 直接 下 载 时 ， 在 Tach- 
yon 上 执行 Spark 时 ， 会 出 现 以 下 错误 。 
1. 错误 一 : 


scala > s. count( ) 


E Tachyon 实践 案例 与 解析 


15/04/19 05: 29: 51INFO : initialize( tachyon ;//cluster04: 19998/tachyon - env. sh ,Configuration : core — 
default. xml, core — site. xml, mapred — default. xml, mapred — site. xml, yarn — default. xml, yarn 一 


site. xml, hdfs — default. xml, hdfs — site. xml). Connecting to Tachyon; tachyon;//cluster04: 19998/tach- 


yon — env. sh 
15/04/19 05: 29: 52 INFO : Trying to connect master @ cluster04/192. 168. 242. 135: 19998 © 
15/04/19 05: 29: 52 INFO ; User registered at the master cluster04/192. 168. 242. 135: 19998 got Userld 6 
15/04/19 05: 29: 52 INFO : Trying to get local worker host : cluster04 
15/04/19 05: 29: 52 INFO : Connecting local worker €? cluster04/192. 168. 242. 135: 29998 
15/04/19 05:29: 52 ERROR: Invalid method name’; getDataFoldet 
java. io. IOException; Invalid method name’; user. getUnderfsAddres$ 
at tachyon. client. TachyonFS. getUnderfsAddress ( TachyonFS. java:1228) 
at tachyon. hadoop. TFS. initialize( TFS. java:289) 


必须 在 spark — env. sh 文件 中 配置 Spark_CLASSPATH ， 具 体 值 参 看 前 面 内 容 。 
2. 错误 二 : 


scala > t. count 

15/04/19 06: 02: 17 INFOFileInputFormat: Total input paths to process:1 

15/04/19 06: 02: 17 INFO deprecation :mapred. tip. id is deprecated. Instead , use mapreduce. task. id 
15/04/19 06: 02: 17 INFO deprecation : mapred. task. id is deprecated. Instead , use mapreduce. task. 
attempt. id 

15/04/19 06: 02: 17 INFO deprecation; mapred. task. is. map is deprecated. Instead , use mapreduce. task. 
ismap 

15/04/19 06: 02: 17 INFO deprecation; mapred. task. partition is deprecated. Instead ,use mapreduce. task. 
partition 

15/04/19 06: 02: 17 INFO deprecation: mapred. job. id is deprecated. Instead , use mapreduce. job. id 
15/04/19 06: 02: 17WARN; tachyon. home is not set. Using /mnt/tachyon. default home as the default 
value. 

15/04/19 06:02: 17 WARNBlockManager: Putting block rdd_3_0 failed 

15/04/19 06: 02: 17 ERROR Executor; Exception in task 0.0 in stage 0. 0 (TID 0) 

java. lang. NoSuchMethodError: tachyon. client. TachyonFS. exist( Ljava/lang/String; ) Z 

at org. apache. spark. storage. TachyonBlockManager $ $ anonfun $ createTachyonDirs $ 2. apply 
( TachyonBlockManager. scala: 117) 

at org. apache. spark. storage. TachyonBlockManager $ $ anonfun $ createTachyonDirs $ 2. apply 
( TachyonBlockManager. scala: 106 ) 

at scala. collection. TraversableLike $ $ anonfun $ map $ 1. apply( TraversableLike. scala:244 ) 

at scala. collection. TraversableLike $ $ anonfun $ map $ 1. apply( TraversableLike. scala:244) 


该 错误 是 由 于 下 载 的 Spark 1. 3. 0 依赖 的 Tachyon 版 本 为 1.5.0， 和 Tachyon 1.6.0 版 本 
不 兼容 ， 必 须 进 行 重 编译 后 才能 运行 通过 。 


ue 基于 Tachyon 运行 HADOOP MR 的 案例 与 解析 ) 


进行 Tachyon 上 运行 HadoopMapReduce 的 案例 实践 时 ， 已 经 部 署 了 Tachyon 集群 
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配置 了 容错 处 理 ， 即 启动 了 ZooKeeper 对 Master 进行 管理 ， 启 动 了 HDFS， 同 时 将 HDFS 配 
置 为 Tachyon 的 底层 文件 系统 。 
使 用 Hadoop 提供 的 WordCount 案例 进行 测试 : 


[ harli@ cluster04 hadoop |] $ ./bin/hadoop jar . /share/hadoop/mapreduce/hadoop - mapreduce — ex- 


amples -2. 6. 0. jar wordcount - libjars . . /tachyon/client/target/tachyon - client — 0. 6. 3 -jar — with 
dependencies. jar  tachyon ;// cluste104: 19998/tachyon — env. sh hdfs: //cluster04 ;9000/ output 
15/04/21 08: 48: I6INFO : initialize ( tachyon: //cluster04: 19998/tachyon — env. sh , Configuration ; core — 
default. xml, core — site. xml, mapred — default. xml, mapred — site. xml, yarn — default. xml, yarn 一 
site. xml ,hdfs — default. xml, hdfs — site. xml). Connecting to Tachyon; tachyon: //cluster04: 19998/tach- 
yon — env. sh 

15/04/21 08: 48: 16WARN :tachyon. home is not set. Using /mnt/tachyon. default home as the default 
value. 

15/04/21 08: 48: 16 INFO: Tachyon client (version 0.6.3) is trying to connect master @ cluster04/ 
192. 168. 242. 135: 19998 

15/04/21 08: 48: 17 INFO; User registered at the master cluster04/192. 168. 242. 135:19998 got Userld 3 
15/04/21 08 : 48 : 17 INFO: tachyon : //cluster04 : 19998 tachyon : //cluster04 : 19998hdfs:// 
cluster04 ; 9000 

15/04/21 08: 48: 17 INFO : getWorkingDirectory: / 

15/04/21 08 : 48 : 17 INFO client. RMProxy; Connecting to ResourceManager at cluster04/ 
192. 168. 242. 135: 8032 

15/04/21 08: 48: 21 INFO: getFileStatus ( tachyon: //cluster04: 19998/tachyon — env. sh) : HDFS Path; 
hdfs ;//cluster04: 9000/tachyon - env. sh TPath : tachyon: //cluster04 ; 19998/tachyon — env. sh 

15/04/21 08: 48: 21 INFO input. FileInputFormat ; Total input paths to process :1 

15/04/21 08: 48: 21 INFOmapreduce. JobSubmitter : number of splits :1 

15/04/21 08: 48: 22 INFOmapreduce. JobSubmitter : Submitting tokens for job :job. 1429631282514 0001 
15/04/21 08: 48: 22 INFOimpl. YarnClientImpl : Submitted application application 1429631282514 0001 
15/04/21 08: 48: 22 INFOmapreduce. Job: The url to track the job; http: //cluster04: 8088/ proxy/appli- 
cation 1429631282514 0001/ 

15/04/21 08: 48: 22 INFOmapreduce. Job; Running job: job. 1429631282514. 0001 

15/04/21 08: 48: 36 INFOmapreduce. Job: Job job. 1429631282514 0001 running in uber mode; false 
15/04/21 08: 48: 36 INFOmapreduce. Job: map 0% reduce 0% 

15/04/21 08: 48: 45 INFOmapreduce. Job: map 100% reduce 0% 

15/04/21 08: 48:57 INFOmapreduce. Job: map 100% reduce 100% 

15/04/21 08: 48: 57 INFOmapreduce. Job; Job job. 1429631282514. 0001 completed successfully 
15/04/21 08: 48: 57 INFOmapreduce. Job : Counters :54 


这 里 使 用 了 - libjars 选项 ， 指 定 用 到 的 Tachyon & P 5i Vj lal A HL tachyon - client - 
0. 6. 3 -jar — with - dependencies. jar, Hadoop 会 将 该 jar 包 分 发 到 各 个 任务 节点 上 后 ， 并 自动 
添加 到 任务 的 CLASSPATH 环境 变量 中 

查看 HDFS 文件 系统 的 Web Interface (http: //cluster04: 50070/explorer. html#/) 界面 ， 
如 图 5. 28 所 示 。 
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Permission Owner Group Size Replication Block Size Name 
WT harli supergroup oB H 128 MB -SUCCESS 
"Wr harli supergroup 3.32 KB 1 128 MB part-r-00000 


Fd 5.28 Tachyon 文件 系统 在 Hadoop MR 访问 后 的 界面 


由 图 5. 28 可 以 看 到 输出 已 经 成 功 。 


MSR Spark 1.4 版 本 新 特性 


DES Spark 1.4 版 本 新 特性 


目前 Spark 基本 上 以 3 个 月 为 周期 发 布 一 个 Release 版 本 ， 这 可 以 从 Spark 的 官方 网 站 上 
看 到 ， 截 稿 之 前 ， 最 新 的 发 布 版 本 已 经 更 新 到 Spark 1.4。 即 , 在 2015 年 7 月 11 日 (美国 
HFHJ), Spark 1. 4 版 本 正式 发 布 ， 新 版 本 除了 对 Spark Core, Spark SQL (DataFrame) , Spark 
Streaming, Spark ML/MLib 等 进行 缺陷 (BUG) 修复 与 升级 之 外 ， 还 加 入 了 期 待 已 久 的 S) 
SparkR 组 件 。 

Spark1. 4 版 本 的 新 特性 可 以 参考 官网 上 ReleaseNote 内 容 ， 下 面 简 单 介绍 备 受 瞩目 的 两 
个 新 特性 : Spark 1.4 版 本 中 的 SparkR 组 件 和 Spark UI 的 数据 可 视 化 功能 。 

1. SparkR 简介 

和 Spark 一 样 ，SparkR 也 是 AMPLab 下 的 子 项 目 ， 是 整合 R 的 易 用 性 和 Spark 的 扩展 性 
的 一 个 探索 。SparkR 开发 者 的 预览 版 最 早 在 2014 年 1 月 开放 源 代 码 (http://amplab - 
extras. github. io/SparkR - pkg/) 。 随 后 的 一 年 多 时 间 ，SparkR 在 AMPLab 得 到 了 飞速 发 展 ， 

而 在 许多 贡献 者 的 努力 下 ，SparkR 在 性 能 和 可 用 性 上 得 到 了 显著 提升 。 最 新 发 布 的 Spark 
1.4 版 本 中 已 经 将 SparkR 合并 进来 ， 作 为 Alpha 组 件 发 布 。 

SparkR 组 件 的 安装 可 以 参考 SparkR - pkg 官网 上 的 描述 。 

在 Spark 1. 4 中 ，SparkR 的 核心 组 件 是 SparkR DataFrames 在 Spark 上 实现 的 一 个 分 
布 式 的 抽象 数据 DataFrame。DataFrame 是 R 中 处 理 数据 的 基本 数据 结构 ， 现 在 这 个 概念 在 
很 多 框架 上 使 用 ， SparkR 引入 了 DataFrame 这 一 概念 后 ， 就 更 加 扩展 了 可 集成 的 数据 源 ， 尤 
其 是 面向 数据 科学 家 ， 其 易 用 性 更 是 大 大 提高 了 。 

DataFrame 的 使 用 案例 可 以 参考 Spark 官网 上 的 SparkR 编程 指南 部 分 。 

关于 SparkR 的 更 详细 的 信息 ， 可 以 参考 Databricks 公司 的 网 站 ( http;//databricks. com/ 
blog/2015/06/09/ announcing - sparkr — r — on - spark. html) 。 

2. Spark UI 的 数据 可 视 化 

最 新 发 布 的 Spark 1.4 版 本 ,为 Spark UI 注入 了 新 特性 ， 即 数据 可 视 化 。 数 据 可 视 化 不 
仅仅 提高 了 开发 者 调试 和 性 能 调 优 的 便利 性 ， 也 极 大 地 方便 了 开发 者 对 于 Spark 内 部 DAG 
调度 机 制 、RDD 缓存 等 内 容 的 理解 。 

数据 可 视 化 包含 以 下 三 个 部 分 : 

1) Spark events 时 间 轴 视图 : Spark 最 新 的 1.4 版 本 中 ，Spark UI Spark 的 events 基于 
一 个 时 间 轴 进行 显示 ， 让 用 户 可 以 一 眼 区 别 相 对 和 交叉 顺序 。 

2) Execution DAG; 在 Spark 最 新 的 1.4 版 本 中 ， 这 个 可 视 化 聚焦 于 DAG 执行 的 每 个 作 
业 。 Æ Spark 中 ，job 与 被 组 织 在 DAG 中 的 一 组 RDD 依赖 性 密切 相关 ， 最 新 的 Spark UI 会 详 
细 显 示 出 DAG 调度 机 制 的 内 部 细节 ， 包括 stage 的 划分 ，RDD 间 的 依赖 关系 ， 甚 至 还 包含 
T RDD 是 否 被 缓存 等 信息 。 

3) Spark Streaming 统计 数字 可 视 化 : Streaming 在 这 个 版 本 中 增加 了 新 的 UI， 各 种 详细 
信息 尽 收 眼底 。 另 外 此 版 本 也 支持 了 0. 8.2. x 的 Kafka 版 本 。 

Hop, 1) 和 2) 两 部 分 的 内 容 可 以 参考 Databricks 公司 的 博客 (https:// 
databricks. com/blog/2015/06/22/ understanding - your — spark - application - through - visualiza- 


tion. html) 。 
3) 部 分 的 内 容 可 以 参考 Databricks 公司 的 博客 (https://www. databricks. com/blog/2015/ 


07/08/new — visualizations — for — understanding — spark — streaming — applications. html) 。 
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3. 2015 年 大 数据 领域 的 两 大 峰会 

Hadoop Summit 和 Spark Summit 可 以 说 是 大 数据 领域 的 两 大 盛会 。 随 着 大 数据 的 社区 规 
模 不 断 扩 大 。 今 年 这 两 大 峰会 的 参 会 人 数 都 创 了 新 高 。 

Hadoop Summit 2015 的 参 会 人 数 是 4000 人 ,同比 增长 30% (2014: 3100 A, 2013; 
2600 A, 2012; 2100 A, 2011; 1600 A, 2010; 1200 A). 

Spark Summit 2015 的 参 会 人 数 是 2000 人 ， 同 比 增长 300% (2014; 500 A). 

从 参 会 人 数 我 们 就 可 以 看 出 Hadoop 和 Spark 这 两 大 框架 在 大 数据 领域 的 重要 性 ， 以 及 
目前 大 数据 的 热门 程度 了 。 虽 然 在 总 的 参 会 人 数 上 ，Spark 峰会 的 人 数 远 远 不 如 Hadoop 峰 
会 ,但 就 其 同比 增长 的 速度 ， 完 全 体现 了 Spark 计算 框架 的 未 来 发 展 势 头 。 下 图 是 
Databricks 公司 分 享 的 Spark 应 用 情况 。 
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目前 ，Spark 最 大 的 集群 来 自 腾讯 ， 集 群 包含 了 8000 个 节点 ， 而 单个 Job 最 大 分 别 是 来 
自 阿 里 巴巴 和 Databricks ， 数 据 量 为 1PB。 
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